[Подлинный флагманский магазин] Внедрение
Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.
- Информация о товаре
- Фотографии
Эта книга всесторонне вводит теорию и метод интеллектуального анализа данных, целью которого является предоставление читателям знания, необходимых для применения интеллектуальных данных к практическим вопросам.
Покрыть пять тем: данные, классификация, анализ ассоциации, кластеризация и аномальное обнаружение.За исключением ненормального тестирования, каждая тема содержит две главы: в предыдущей главе описываются основные понятия, репрезентативные алгоритмы и методы оценки, а в следующей главе обсуждаются концепции высокого уровня и алгоритмы.Цель состоит в том, чтобы позволить читателям тщательно понять основу интеллектуального анализа данных, но также понять более важные темы высокого уровня.Кроме того, в книге приведено большое количество примеров, диаграмм и упражнений.
Он подходит для учебников для бакалавцев с высоким уровнем обложки и курсов для анализа данных для выпускников для связанных специальностей, а также может использоваться в качестве справочника для исследований данных и разработчиков приложений.
Глава 1 Введение 1
1.1 Что такое интеллектуальный анализ данных 2
1.2 Проблема интеллектуального анализа данных для решения 2
1.3 Происхождение добычи данных 3
1.4 Задача добычи данных 4
1.5 Контент и организация этой книги 7
Документация 7
Рекомендации 8
упражнение 10
Глава 2 Данные 13
2.1 Тип данных 14
2.1.1 Свойства и измерения 15
2.1.2 Типы набора данных 18
2.2 Качество данных 22
2.2.1 Проблемы измерения и сбора данных 22
2.2.2 О вопросах приложения 26
2.3 Предварительная обработка данных 27
2.3.1 Сбор 27
2.3.2 Образец 28
2.3.3 Виктор 30
2.3.4 Выбор подмножества 31
2.3.5 Создание функции 33
2.3.6 Дискретная и бинаризация 34
2.3.7 Преобразование переменной 38
2.4 Измерение сходства и разницы в фазах 38
2.4.1 Фонд 39
2.4.2 Сходство и разность фазы между простыми атрибутами 40
2.4.3 Разница между объектами данных 41
2.4.4 Сходство между объектами данных 43
2.4.5 Пример количества соседства 43
2.4.6 Расчет расчета соседства 48
2.4.7 Выберите правильный вес соседства 50
Документация 50
Рекомендации 52
упражнение 53
Глава 3 Изучение данных 59
3.1 набор данных цветов Iris 59
3.2 Президентский матч 60
3.2.1 Частота и количество толпы 60
3.2,2 процентного уровня 61
3.2.3 Мера положения: среднее и среднее число 61
3.2.4 Распределение измерения 62
3.2.5 Президент президента 63
3.2.6 Другие методы для суммирования данных 64
3.3 Визуализация 64
3.3.1 Мотивация для визуализации 64
3.3.2 Общая концепция 65
3.3.3 Технология 67
3.3.4 визуализированные данные с высоким уровнем 75
3.3.5 Меры предосторожности 79
3.4 Alap и многомерный анализ данных 79
3.4.1 Используйте многомерные массивы для представления данных о цветах радужной оболочки 80
3.4.2 Многократные данные: обычно 81
3.4.3 Анализ многомерных данных 82
3.4.4 Окончательный обзор многомерного анализа данных 84
Документация 84
Рекомендации 85
упражнение 86
Глава 4 Классификация: базовая концепция, дерево решений и оценка модели 89
4.1 Подготовка знаний 89
4.2 Общий метод решения проблемы классификации 90
4.3 Сумуляторное дерево дерева решений 92
4.3.1 Принцип работы дерева решений 92
4.3.2 Как установить дерево решений 93
4.3.3 Метод условия испытания атрибута 95
4.3.4 Выберите измерение оптимального деления 96
4.3.5 Алгоритм дерева решений лучше 101
4.3.6 Пример: обнаружение веб -роботов 102
4.3.7 Характеристики индукции дерева решений 103
4.4 Чрезмерная подгонка модели 106
4.4.1 чрезмерная подгонка, вызванная шумом 107
4.4.2 Отсутствие чрезмерного соответствия, вызванного репрезентативными образцами 109
4.4.3. 109
4.4.4 Оценка ошибки обобщения 110
4.4.5 Чрезмерное соответствие в индукции дерева, принимающего решения 113
4.5 Оценить производительность классификатора 114
4.5.1 Ключ, чтобы сохранить 114
4.5.2. Случайная два отбора проб 115
4.5.3 Перекрестная проверка 115
4.5.4 Метод самостоятельного обслуживания 115
4.6 Метод сравнения классификатора 116
4.6.1 Достоверное диапазон точности оценки точности 116
4.6.2 Сравните производительность двух моделей 117
4.6.3 Сравните производительность двух методов классификации 118
Документация 118
Рекомендации 120
упражнение 122
Глава 5 Категория: Другая технология 127
5.1 Классификатор на основе правила 127
5.1.1 Принцип работы регулярного классификатора классификатора 128
5.1.2 План сортировки для правил 129
5.1.3 Как построить классификатор на основе правил 130
5.1.4 Прямой метод извлечения правил 130
5.1.5 Косвенное метод извлечения правил 135
5.1.6 Характеристики классификатора на основе правил 136
5.2 Недавно соседний классификатор 137
5.2.1 Алгоритм 138
5.2.2 Характеристики классификатора ближайшего соседа 138
5.3 Байесовский классификатор 139
5.3.1 Байесовская теорема 139
5.3.2 Применение байесовской теоремы в классификации 140
5.3.3 простой классификатор Байеса 141
5.3.4 Бейесовская частота ошибок 145
5.3.5 Сеть веров Бейеса 147
5.4 Искусственная нейронная сеть 150
5.4.1 Performancer 151
5.4.2 Многослойная искусственная нейронная сеть 153
5.4.3 Характеристики искусственной нейронной сети 155
5.5 Служба векторной машины 156
5.5.1. Самая большая ультра -плоскость Edge 156
5.5.2. 157
5.5.3. Линейный векторный векторный машина: нельзя разделить на ситуацию 162
5.5.4 Нелинейная векторная машина поддержки 164
5.5.5. Поддерживать характеристики векторной машины 168
5.6 Метод комбинации 168
5.6.1 Основные принципы метода комбинации 168
5.6.2 Метод создания комбинированного классификатора 169
5.6.3 Частичное наклонение— дифференциальное разложение 171
5.6.4 Сумка 173
5.6.5 Улучшение 175
5.6.6 Случайный лес 178
5.6.7 Экспериментальное сравнение метода комбинации 179
5.7 Необвисываемая проблема 180
5.7.1 Необязательная сумма 180
5.7.2 Принятая кривая операционной характеристики 182
5.7.3 Чувствительное обучение 184
5.7.4 Метод отбора проб 186
5.8 Вопросы много -типа 187
Документация 189
Рекомендации 190
упражнение 193
Глава 6 Связанный анализ: основные понятия и алгоритмы 201
6.1 Определение 202
6.2 Появление частых предметов 204
6.2.1 Приоритетный принцип 205
6.2.2. Получаются частые проекты алгоритма Apriori 206
6.2.3 Generation and Truning 208
6.2.4 Поддержка поддержки 210
6.2.5 Сложность расчета 213
6.3 Правила генерации 215
6.3.1 Ветвление на основе уверенности 215
6.3.2 Появление правил в алгоритме Apriori 215
6.3.3 Дело: протокол голосования Конгресса США 217
6.4 Компактное представление частых элементов 217
6.4.1 Отличный набор частот 217
6.4.2 Частые районы 219
6.5 Другие методы для создания частых элементов 221
6.6 FP -алгоритм роста 223
6.6.1 Метод представления дерева FP 224
6.6.2 Сгенерируются частые проекты алгоритмов роста FP 225
6.7 Оценка связанного режима 228
6.7.1 Объективное измерение интереса 228
6.7.2 Merture из нескольких двойных переменных 235
6.7.3 Парадокс Симпсона 236
6.8. Влияние распределения поддержки наклона 237
Документация 240
Рекомендации 244
упражнение 250
Глава 7 Связанный анализ: передовая концепция 259
7.1 Лечение атрибутов классификации 259
7.2 Обработка непрерывных атрибутов 261
7.2.1 Методы, основанные на дискретных 261
7.2.2 Статистический метод 263
7.2.3 Не -дискретный метод 265
7.3. 266
7.4 Режим последовательности 267
7.4.1 Описание проблемы 267
7.4.2. Обнаружение режима последовательности 269
7.4.3 Ограничение ограничения по времени 271
7.4.4 Дополнительная схема подсчета 274
7.5 Режим подграфа 275
7.5.1 Цифры и суб -чарты 276
7.5.2 Частая подраздел 277
7.5.3 Метод Apriori 278
7.5.4 Кандидат поколение 279
7.5.5. 282
7.5.6 Поддержка поддержки 285
7.6 Нечастотный режим 285
7.6.1 Отрицательный режим 285
7.6.2 Отрицательный режим, связанный с ними 286
7.6.3 Сравнение нечастого режима, отрицательного режима и отрицательного режима 287
7.6.4 Копание технических технологий интересного нечастого режима 288
7.6.5 Технология на основе негативного режима майнинга 288
7.6.6 Технология на основе ожиданий поддержки 290
Документация 292
Рекомендации 293
упражнение 295
Глава 8 Анализ: Основные понятия и алгоритмы 305
8.1 Обзор 306
8.1.1 Что такое кластеризационный анализ 306
8.1.2 Различные типы кластеров 307
8.1.3 Различные типы кластеров 308
8,2 K в среднем 310
8.2.1 Основной k средний алгоритм алгоритм 310
8,2,2 K в среднем: дополнительная проблема 315
8.2.3 Два среднего значения K -точки K 316
8,2,4 К среднего и разных кластеров 317
8.2.5 Преимущества и недостатки 318
8.2.6 K Среднее значение в качестве проблемы оптимизации 319
8.3 Сбор иерархический кластер 320
8.3.1 Алгоритм базового иерархического кластера. 321
8.3.2 Специальные технологии 322
8.3.3 Формула Ланса-Уильямс соседнего 325
8.3.4 Основные проблемы кластера слоя 326
8.3.5 Преимущества и недостатки 327
8.4 DBSCAN 327
8.4.1 Традиционная плотность: метод на основе центрального метода 327
8.4.2 DBSCAN Algorithm 328
8.4.3 Преимущества и недостатки 329
8.5 Оценка кластера 330
8.5.1 Обзор 332
8.5.2 Оценка не -мониторной кластера: используйте конденсацию и разделение 332
8.5.3 Оценка не -мониторной кластера: используйте соседнюю матрицу 336
8.5.4 Оценка не -супервизии уровня кластера 338
8.5.5. Определите правильный номер кластера 339
8.5.6 Кластерные тенденции 339
8.5.7 Степень мониторинга эффективности кластеров 340
8.5.8. Эффективность оценки кластера достоверности кластера 343
Документация 344
Рекомендации 345
упражнение 347
Глава 9 Анализ: Другие вопросы и алгоритмы 355
9.1 Характеристики данных, кластеров и кластерных алгоритмов 355
9.1.1 Пример: сравнение k среднее и dbscan 355
9.1.2 Функции данных 356
9.1.3 Характеристики кластера 357
9.1.4 Общие функции кластерных алгоритмов 358
9.2 кластер на основе протокола 359
9.2.1 Неопределенная кластеризация 359
9.2.2 Используйте кластер гибридной модели 362
9.2.3 Картографирование самоореганизации 369
9,3 кластеризация на основе плотности 372
9.3.1 кластеризация на основе сетки 372
9.3.2 Sub -Space Cluster 374
9.3.3 Denclue: ядерное решение на основе кластера плотности 377
9.4. 379
9.4.1 доставка 379
9.4.2 Минимальная кластеризация генерации деревьев 380
9.4.3 Опоссум: лучшее разделение редкого сходства Метиса 381
9.4.4 Hameleon: используйте слоистую кластеризацию динамического моделирования 381
9.4.5 Обмен недавним соседним сходством 385
9.4.6 Алгоритм кластера Jarvis-Patrick 387
9.4.7 Плотность SNN 388
9.4.8 Категория на основе плотности на основе SNN 389
9.5 Экстрапетируемый кластерный алгоритм 390
9.5.1 Эякуляция: общие проблемы и методы 391
9.5.2 BIRCH 392
9.5.3 CURE 393
9.6 Какой кластерный алгоритм используется 395
Документация 397
Рекомендации 398
упражнение 400
Глава 10 Аномальный тест 403
10.1 Подготовьте знания 404
10.1.1 Причина ненормального 404
10.1.2 Метод аномального обнаружения 404
10.1.3 Использование категорий метки 405
10.1.4 Вопрос 405
10.2 Метод статистики 406
10.2.1 Обнаружение точки разделения в нормальном распределении одного -припада 407
10.2.2 Точки разделения множественного нормального распределения 408
10.2.3 Метод смешанной модели аномального обнаружения 410
10.2.4 Преимущества и недостатки 411
10.3 Тест на точку растяжения на основе соседних степеней 411
10.4 Тест точечного отчуждения на основе плотности 412
10.4.1 Используйте относительную плотность, чтобы проверить группу 413
10.4.2 Преимущества и недостатки 414
10.5 следовал технологии 414
10.5.1 Объекты оценки принадлежат степени кластера 415
10.5.2 Влияние группы групп на начальный кластер 416
10.5.3 Используйте количество кластеров 416
10.5.4 Преимущества и недостатки 416
Документация 417
Рекомендации 418
упражнение 420
Приложение линейная алгебра 423
Приложение B -Дисмерное 433
Приложение C Статистика вероятности 445
Приложение D возврат 451
Приложение E оптимизация 457