Подлинный анализ данных Hadoop [Beauty] и Middot;
Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.
- Информация о товаре
- Фотографии
Основная информация
Название: анализ данных Hadoop
Цена: 69 юаней
Автор: [красота]&Middot;&Миддот;
Пресса: People's Puss and Telecommunications Publishing House
Дата публикации: 2018-04-01
ISBN: 9787115479648
Слова:
номер страницы:
Версия:
Фрагментация: пластичный порядок PACDER
Открыто: 16
Товарный вес:
Оглавление
Предисловие IX
* Некоторые распределенные вычисления
* ГЛАВА 1 ДАННЫЙ ПРОДУКЦИЯ ВОЗМОЖИТЬ 2
1.1 Что такое продукт данных 2
1.2 Используйте Hadoop для создания больших продуктов для данных 4
1.2.1 Используйте набор данных 4
1.2.2 Hadoop 5 в продуктах данных
1.3 Линия сборки данных и Hadoop Ecosystem 6
1.4 Резюме 8
* 2 Глава
2.1 Основная концепция 10
2.2 Архитектура Hadoop 11
2.2.1 Hadoop Cluster 12
2.2.2 HDFS 14
2.2.3 пряжа 15
2.3 Используйте распределенную файловую систему 16
2.3.1 ОСНОВНАЯ РАБОТА ФАЙЛА 16
2.3.2 Разрешения файла HDFS 18
2.3.3 Другое интерфейс HDFS 19
2.4 Используйте распределенный расчет 20
2.4.1 MapReduce: модель 20 функционального программирования 20
2.4.2 MapReduce: реализация кластера 22
2.4.3 Более одной MapReduce: операционная цепь 27
2.5 Отправьте домашнее задание на пряжу MapReduce 28
2.6 Сводка 30
Глава 3 Python Framework и Hadoop Streaming 31
3.1 Hadoop Streaming 32
3.1.1 Используйте потоковую передачу для запуска на данных CSV для расчета 34
3.1.2 Выполнить потоковые приставы 38
3.2 MapReduce Framework of Python 39
3.2.1 Подсчет фразу 42
3.2.2 Другие кадры 45
3.3 MapReduce Advanced 46
3.3.1 Combiner 46
3.3.2 Разместитель 47
3.3.3
3.4 Резюме 50
Глава 4 Расчет замысленной памяти 52
4.1 Spark Basic 53
4.1.1 Spark Stack 54
4.1.2 RDD 55
4.1.3 Используйте программирование RDD 56
4.2 Interactive Spark 59 на основе Pyspark
4.3 Напишите приложение Spark 61
4.4 Резюме 67
Глава 5 Распределенный анализ и режим 69
5.1 Расчет ключей 70
5.1.1 Композитный ключ 71
5.1.2 Ключевой режим пространства 74
5.1.3 Пара и полоса 78
5.2 Режим проектирования 80
5.2.1 Резюме 81
5.2.2 Индекс 85
5.2.3 Фильтр 90
5.3 Анализ одной мили после одной мили 95
5.3.1 Модель подгонка 96
5.3.2 Проверка модели 97
5.4 Резюме 98
* Две части рабочего процесса и инструментов с большими данными
ГЛАВА 6 МАНПАН ДАННЫХ И ДАННЫЕ ПЕРЕДЕЛИ 102
6.1 Структурированные данные Hive Запрос 103
6.1.1 Интерфейс командной строки Hive (CLI) 103
6.1.2 Язык запросов уля 104
6.1.3 Анализ данных HIVE 108
6.2 Hbase 113
6.2.1 NOSQL и база данных столбцов 114
6.2.2 Hbase Real -Time Analysis 116
6.3 Резюме 122
Глава 7 Сбор данных 123
7.1 Используйте данные о отношениях импорта SQOOP 124
7.1.1 Импорт HDFS 124 из MySQL
7.1.2 Import Hive 126 из MySQL
7.1.3 Импорт HBASE 128 из MySQL
7.2 Используйте Flume, чтобы получить потоковые данные 130
7.2.1 Flume Data Stream 130
7.2.2 Используйте Flume для получения данных от впечатления от продукта 133
7.3 Резюме 136
Глава 8 Используйте API высокого уровня для анализа 137
8.1 свинья 137
8.1.1 свиная латынь 138
8.1.2 Тип данных 142
8.1.3 Оператор по отношениям 142
8.1.4 Функция определения пользователя 143
8.1.5 Суммирование свиньи 144
8.2 Spark High -Level API 144
8.2.1 Spark SQL 146
8.2.2 DataFrame 148
8.3 Резюме 153
Глава 9 Машинное обучение 154
9.1 Используйте Spark для масштабируемого машинного обучения 154
9.1.1 скоординированная фильтрация 156
9.1.2 Классификация 161
9.1.3 кластер 163
9.2 Резюме 166
* 10 Резюме: Распределенная наука о данных. 167
10.1 Жизненный цикл продукта данных 168
10.1.1 Data Lake 169
10.1.2 Сбор данных 171
10.1.3 Хранение данных расчета 172
10.2 Жизненный цикл машинного обучения 173
10.3 Xiobei 175
Приложение A Create Hadoop Pseudo -Distribution Environment 176
Приложение B Установите продукт Hadoop Ecosystem 184
Условия 193
Об авторе 211
О обложке 211
Краткое содержание
Предоставляя распределенную структуру хранения данных и параллельные вычисления, Hadoop превратился из кластерных вычислений в операционную систему больших данных.Эта книга направлена на то, чтобы предоставить кластерные вычисления и обзоры анализа в прочтении и интуитивно понятно, чтобы проложить путь для ученых данных для понимания внутреннего понимания конкретных областей темы и ввести кластерные вычисления и анализ Hadoop с точки зрения ученых -ученых.Эта книга разделена на две части.* Некоторые из них вводят распределенные вычисления с высокого уровня, чтобы обсудить, как запустить вычисления на кластере.
об авторе
Бенджамин Бенгфорт, ученый данных, в настоящее время изучает докторскую степень в Университете Мэриленда, в направлении машинного обучения и распределенных вычислений;Дженни Ким, опытный инженер с большими данными, не только разрабатывает бизнес -программное обеспечение, но и добилась достижений в академическом сообществе.Команда HUE в настоящее время работает в Cloudera.
Выбор редактора
Предоставляя распределенную структуру хранения данных и параллельные вычисления, Hadoop превратился из кластерных вычислений до операционной системы крупных данных.С точки зрения науки о данных, эта книга вводит расчет и анализ кластера Hadoop и фокусируется на конкретном анализе, технологии хранения данных и потоках данных с высоким уровнем момента, которые могут быть построены.Основной контент в книге заключается в следующем:&Middot;&MidDot;&Middot;&Миддот;&Middot;&Middot;——Объяснение в этой книге всегда дополняет пример, так что читатели могут инвестировать в фактическую борьбу после обучения и глубоко понимать функцию системы.———— Amazon Reader