8 (905) 200-03-37 Владивосток
с 09:00 до 19:00
CHN - 1.14 руб. Сайт - 17.98 руб.

Подлинный анализ данных Hadoop [Beauty] и Middot;

Цена: 910руб.    (¥50.6)
Артикул: 618840268731

Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.

Этот товар на Таобао Описание товара
Продавец:爱阅图书专营店
Адрес:Пекин
Рейтинг:
Всего отзывов:0
Положительных:0
Добавить в корзину
Другие товары этого продавца
¥ 79 67.151 208руб.
¥ 68 47.6856руб.
¥26.4475руб.
¥51.7930руб.

Основная информация

Название: анализ данных Hadoop

Цена: 69 юаней

Автор: [красота]&Middot;&Миддот;

Пресса: People's Puss and Telecommunications Publishing House

Дата публикации: 2018-04-01

ISBN: 9787115479648

Слова:

номер страницы:

Версия:

Фрагментация: пластичный порядок PACDER

Открыто: 16

Товарный вес:

Оглавление

Предисловие IX

* Некоторые распределенные вычисления

* ГЛАВА 1 ДАННЫЙ ПРОДУКЦИЯ ВОЗМОЖИТЬ 2

1.1 Что такое продукт данных 2

1.2 Используйте Hadoop для создания больших продуктов для данных 4

1.2.1 Используйте набор данных 4

1.2.2 Hadoop 5 в продуктах данных

1.3 Линия сборки данных и Hadoop Ecosystem 6

1.4 Резюме 8

* 2 Глава

2.1 Основная концепция 10

2.2 Архитектура Hadoop 11

2.2.1 Hadoop Cluster 12

2.2.2 HDFS 14

2.2.3 пряжа 15

2.3 Используйте распределенную файловую систему 16

2.3.1 ОСНОВНАЯ РАБОТА ФАЙЛА 16

2.3.2 Разрешения файла HDFS 18

2.3.3 Другое интерфейс HDFS 19

2.4 Используйте распределенный расчет 20

2.4.1 MapReduce: модель 20 функционального программирования 20

2.4.2 MapReduce: реализация кластера 22

2.4.3 Более одной MapReduce: операционная цепь 27

2.5 Отправьте домашнее задание на пряжу MapReduce 28

2.6 Сводка 30

Глава 3 Python Framework и Hadoop Streaming 31

3.1 Hadoop Streaming 32

3.1.1 Используйте потоковую передачу для запуска на данных CSV для расчета 34

3.1.2 Выполнить потоковые приставы 38

3.2 MapReduce Framework of Python 39

3.2.1 Подсчет фразу 42

3.2.2 Другие кадры 45

3.3 MapReduce Advanced 46

3.3.1 Combiner 46

3.3.2 Разместитель 47

3.3.3

3.4 Резюме 50

Глава 4 Расчет замысленной памяти 52

4.1 Spark Basic 53

4.1.1 Spark Stack 54

4.1.2 RDD 55

4.1.3 Используйте программирование RDD 56

4.2 Interactive Spark 59 на основе Pyspark

4.3 Напишите приложение Spark 61

4.4 Резюме 67

Глава 5 Распределенный анализ и режим 69

5.1 Расчет ключей 70

5.1.1 Композитный ключ 71

5.1.2 Ключевой режим пространства 74

5.1.3 Пара и полоса 78

5.2 Режим проектирования 80

5.2.1 Резюме 81

5.2.2 Индекс 85

5.2.3 Фильтр 90

5.3 Анализ одной мили после одной мили 95

5.3.1 Модель подгонка 96

5.3.2 Проверка модели 97

5.4 Резюме 98

* Две части рабочего процесса и инструментов с большими данными

ГЛАВА 6 МАНПАН ДАННЫХ И ДАННЫЕ ПЕРЕДЕЛИ 102

6.1 Структурированные данные Hive Запрос 103

6.1.1 Интерфейс командной строки Hive (CLI) 103

6.1.2 Язык запросов уля 104

6.1.3 Анализ данных HIVE 108

6.2 Hbase 113

6.2.1 NOSQL и база данных столбцов 114

6.2.2 Hbase Real -Time Analysis 116

6.3 Резюме 122

Глава 7 Сбор данных 123

7.1 Используйте данные о отношениях импорта SQOOP 124

7.1.1 Импорт HDFS 124 из MySQL

7.1.2 Import Hive 126 из MySQL

7.1.3 Импорт HBASE 128 из MySQL

7.2 Используйте Flume, чтобы получить потоковые данные 130

7.2.1 Flume Data Stream 130

7.2.2 Используйте Flume для получения данных от впечатления от продукта 133

7.3 Резюме 136

Глава 8 Используйте API высокого уровня для анализа 137

8.1 свинья 137

8.1.1 свиная латынь 138

8.1.2 Тип данных 142

8.1.3 Оператор по отношениям 142

8.1.4 Функция определения пользователя 143

8.1.5 Суммирование свиньи 144

8.2 Spark High -Level API 144

8.2.1 Spark SQL 146

8.2.2 DataFrame 148

8.3 Резюме 153

Глава 9 Машинное обучение 154

9.1 Используйте Spark для масштабируемого машинного обучения 154

9.1.1 скоординированная фильтрация 156

9.1.2 Классификация 161

9.1.3 кластер 163

9.2 Резюме 166

* 10 Резюме: Распределенная наука о данных. 167

10.1 Жизненный цикл продукта данных 168

10.1.1 Data Lake 169

10.1.2 Сбор данных 171

10.1.3 Хранение данных расчета 172

10.2 Жизненный цикл машинного обучения 173

10.3 Xiobei 175

Приложение A Create Hadoop Pseudo -Distribution Environment 176

Приложение B Установите продукт Hadoop Ecosystem 184

Условия 193

Об авторе 211

О обложке 211

Краткое содержание

Предоставляя распределенную структуру хранения данных и параллельные вычисления, Hadoop превратился из кластерных вычислений в операционную систему больших данных.Эта книга направлена ​​на то, чтобы предоставить кластерные вычисления и обзоры анализа в прочтении и интуитивно понятно, чтобы проложить путь для ученых данных для понимания внутреннего понимания конкретных областей темы и ввести кластерные вычисления и анализ Hadoop с точки зрения ученых -ученых.Эта книга разделена на две части.* Некоторые из них вводят распределенные вычисления с высокого уровня, чтобы обсудить, как запустить вычисления на кластере.

об авторе

Бенджамин Бенгфорт, ученый данных, в настоящее время изучает докторскую степень в Университете Мэриленда, в направлении машинного обучения и распределенных вычислений;Дженни Ким, опытный инженер с большими данными, не только разрабатывает бизнес -программное обеспечение, но и добилась достижений в академическом сообществе.Команда HUE в настоящее время работает в Cloudera.

Выбор редактора

Предоставляя распределенную структуру хранения данных и параллельные вычисления, Hadoop превратился из кластерных вычислений до операционной системы крупных данных.С точки зрения науки о данных, эта книга вводит расчет и анализ кластера Hadoop и фокусируется на конкретном анализе, технологии хранения данных и потоках данных с высоким уровнем момента, которые могут быть построены.Основной контент в книге заключается в следующем:&Middot;&MidDot;&Middot;&Миддот;&Middot;&Middot;——Объяснение в этой книге всегда дополняет пример, так что читатели могут инвестировать в фактическую борьбу после обучения и глубоко понимать функцию системы.———— Amazon Reader