8 (905) 200-03-37 Владивосток
с 09:00 до 19:00
CHN - 1.14 руб. Сайт - 17.98 руб.

Spark Fast Fast Big Data Analysis (American) Holden Karau WALE; Wang Daoyuan перевел профессиональные технологии языка программирования Wang Daoyuan, People's Post и телекоммуникационная пресса 9787115403094

Цена: 774руб.    (¥43)
Артикул: 630192312334

Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.

Этот товар на Таобао Описание товара
Продавец:新文图书专营店
Адрес:Сычуань
Рейтинг:
Всего отзывов:0
Положительных:0
Добавить в корзину
Другие товары этого продавца
¥57.881 041руб.
¥13234руб.
¥127.72 297руб.
¥19.8357руб.

Свернуть быстрый анализ больших данных

делать  (США) Холден Карау, ожидающий; Ван Даоюанский перевод Ван Даоюанского перевода
Конечно   цена:59
вне&Ensp; издание&Encp; Общество:Люди после прессы
Дата публикации:01 сентября 2015 г.
Страница &Nbsp; номер:210
Пакет   кадр:Оплата в мягкой обложке
ISBN:9787115403094
Редакционная рекомендация

Произведено разработчиками Spark!
«Анализ Fast Fast Data» -это книга, подготовленная для прокуроров Spark. Она не понимает деталей деталей, но уделяет больше внимания конкретному использованию пользователей верхнего уровня.Тем не менее, эта книга является не только использованием Spark. Она также имеет всеобъемлющее введение в основную концепцию и основные принципы искры, чтобы читатели могли это знать и почему.
Эта книга представляет Apache Spark, компонентную вычислительную систему с открытым исходным кодом, которая может ускорить реализацию и работу анализа данных.С помощью Spark вы можете быстро управлять большими наборами данных с простыми API Python, Java и Scala.
Эта книга от Spark ...

Оглавление
Рекомендация    xi
Переводчик    xiv
последовательность    xvi
Предисловие    xvii
глава   анализ данных Spark Analysis Введение    1
1.1 &Что такое NBSP; Spark    1
1.2   Объединенный программный стек    2
1.2.1  Spark Core    2
1.2.2  Spark SQL    3
1.2.3  Spark Streaming    3
1.2.4  MLlib    3
1.2.5  GraphX    3
1.2.6   менеджер кластеров    4
1.3 &Nbsp; пользователи и использование Spark    4
1.3.1   задача по науке о данных    4
1.3.2   приложение обработки данных    5
1.4   Spark Simple History    5
1.5   версия и выпуск Spark    6
1.6   уровень хранения Spark    6
Глава 2   искра и вход    7
2.1  Spark    7
2.2   раковина Spark в Python и Scala    9
2.3   Spark Core Concept Введение    12
2.4   независимое приложение    14
2.4.1   Инициализация SparkContext    15
2.4.2   создать независимое приложение    16
2.5   Резюме    19
Глава 3   RDD программирование    21
3.1   RDD Основы    21
3.2   создать RDD    23
3.3 &операция NBSP; RDD    24
3.3.1 &Операция преобразования NBSP;    24
3.3.2 &Nbsp; операция действия    26
3.3.3   инерция для стоимости    27
3.4   пройти функцию, чтобы зажечь    27
3.4.1  Python    27
3.4.2  Scala    28
3.4.3  Java    29
3.5   Общие операции конверсии и действия действий    30
3.5.1   базовый RDD    30
3.5.2   конвертируйте между различными типами RDD    37
3.6   Постоянство (кэш)    39
3.7   Резюме    40
Глава 4 &Nbsp; операция пары значений ключа    41
4.1   мотивация    41
4.2   создать пару RDD    42
4.3   Пара операции преобразования RDD    42
4.3.1   июль    45
4.3.2   пакет данных    49
4.3.3   соединение    50
4.3.4   Сортировка данных    51
4.4   пара действий RDD    52
4.5   раздел данных (Advanced)    52
4.5.1   Получите метод разделения RDD    55
4.5.2   операции выиграли от перегородков    56
4.5.3 &операция NBSP;, которая влияет на метод разделения    57
4.5.4   Пример: PageRank    57
4.5.5   Пользовательский метод разделения    59
4.6   Резюме    61
Глава 5   чтение и сохранение данных    63
5.1   мотивация    63
5.2 &Формат файла nbsp;    64
5.2.1   текстовый файл    64
5.2.2  JSON    66
5.2.3   Значение сегментации запятой и значение разделения часа    68
5.2.4  SequenceFile    71
5.2.5   объектный файл    73
5.2.6   Hadoop входной формат вывода    73
5.2.7 &сжатие файла nbsp;    77
5.3 &файловая система NBSP;    78
5.3.1   локальный/&Ldquo; обычный” файловая система    78
5.3.2  Amazon S3    78
5.3.3  HDFS    79
5.4   структурированные данные в Spark SQL    79
5.4.1  Apache Hive    80
5.4.2  JSON    80
5.5   База данных    81
5.5.1   соединение базы данных Java    81
5.5.2  Cassandra    82
5.5.3  HBase    84
5.5.4  Elasticsearch    85
5.6   Резюме    86
Глава 6   Spark Programming Advanced    87
6.1   Введение    87
6.2   Cumulator    88
6.2.1   cumbulator и устойчивость к разлому    90
6.2.2   Customizer    91
6.3   трансляционная переменная    91
6.4 &операция NBSP; на основе разделов    94
6.5   трубопровод между внешними программами    96
6.6   работа значения RDD    99
6.7   Резюме    100
Глава 7   запустить искру на кластере    101
7.1   Введение    101
7.2   Spark при запуске    101
7.2.1 &Nbsp; приводной узел    102
7.2.2   Узел привода    103
7.2.3   менеджер кластеров    103
7.2.4   начать программу    104
7.2.5   Резюме    104
7.3   развертывание приложений с Spark-Submit    105
7.4   упаковывать код и зависимости    107
7.4.1   Spark Application, написанное на Java, построенное с Maven    108
7.4.2   Scala -Written Spark Application с использованием SBT    109
7.4.3   конфликт зависимости     111
7.5   Spark Application Inter -Dapplication и планирование приложений    111
7.6   менеджер кластеров    112
7.6.1   независимый менеджер кластеров    112
7.6.2  Hadoop YARN    115
7.6.3  Apache Mesos    116
7.6.4  Amazon EC2    117
7.7   выберите правый диспетчер кластеров    120
7.8   Резюме    121
Глава 8   Spark Tuning and Debuging    123
8.1   используйте SparkConf для настройки Spark    123
8.2   ЧАСТЬ ЧАСТЬ выполнения SPARK: назначение, задача и шаги    127
8.3   найти информацию    131
8.3.1   Spark Web пользовательский интерфейс    131
8.3.2 &Процесс диска NBSP; и журнал процесса привода    134
8.4   ключевые соображения производительности    135
8.4.1   параллелизм    135
8.4.2   формат сериализации    136
8.4.3   Управление памятью    137
8.4.4   поставка аппаратного обеспечения    138
8.5   Резюме    139
Глава 9  Spark SQL    141
9.1   подключить Spark SQL    142
9.2   используйте Spark SQL в приложении    144
9.2.1   инициализировать Spark SQL    144
9.2.2 &Nbsp; базовый пример запроса    145
9.2.3  SchemaRDD    146
9.2.4   кеш    148
9.3   Читать и хранить данные    149
9.3.1  Apache Hive    149
9.3.2  Parquet    150
9.3.3  JSON    150
9.3.4 &на основе NBSP;    152
9.4   JDBC/ODBC Server    153
9.4.1   использовать Beeline    155
9.4.2 &Nbsp; таблица и запрос долгого жизненного цикла    156
9.5   пользовательская пользовательская функция    156
9.5.1  Spark SQL UDF    156
9.5.2  Hive UDF    157
9.6   производительность Spark SQL    158
9.7   Резюме    159
Глава 0  Spark Streaming    161
10.1   простой пример    162
10.2   архитектура и абстракция    164
10.3 &Операция преобразования NBSP;    167
10.3.1   операция не -государственной конверсии    167
10.3.2      169
10.4   операция вывода    173
10.5   входной источник    175
10.5.1   основной источник данных    175
10.5.2   дополнительный источник данных    176
10.5.3   Multi -Data Source и Cluster Scale    179
10.6   24/7 непрерывная операция    180
10.6.1   механизм проверки точек    180
10.6.2   Drive Program Toelerance    181
10.6.3   терпимость рабочих узлов    182
10.6.4   допуск ошибок приемника    182
10.6.5   гарантия лечения    183
10.7   потоковое пользовательское интерфейс    183
10.8   соображения производительности    184
10.8.1   размер партии и окна    184
10.8.2   параллелизм    184
10.8.3   переработка мусора и использование памяти    185
10.9   Резюме    185
1 глава &Mllib на основе машинного обучения NBSP;    187
11.1   Обзор    187
11.2   Системные требования    188
11.3   Основы машинного обучения    189
11.4   Тип данных    192
11.5   алгоритм    194
11.5.1 &Nbsp; извлечение функции    194
11.5.2   Статистика    196
11.5.3   классификация и регрессия    197
11.5.4   кластер    202
11.5.5   Совместная фильтрация и рекомендация    203
11.5.6   сокращение    204
11.5.7   Оценка модели    206
11.6   некоторые подсказки и соображения производительности    206
11.6.1   функции подготовки    206
11.6.2   алгоритм конфигурации    207
11.6.3   cache rdd для повторного использования    207
11.6.4   идентификация тоньше    207
11.6.5   параллелизм    207
11.7   API Filial Line    208
11.8   Резюме    209
об авторе    210
Введение в обложку    210
Пунктирное содержание

краткое введение

Эта книга была совместно создана разработчиками Spark и основными членами, объясняя инструменты, которые могут эффективно и быстро анализировать и обрабатывать данные в эпоху больших данных в Интернете.—— Spark, он заставляет читателей быстро овладеть методами сбора, расчета, упрощения и сохранения массивных данных с искру, научится взаимодействовать, итерационно и инкрементальный анализ, а также решения таких проблем, как разделы, локализация и пользовательская сериализация.

об авторе

(США) Холден Карау, ожидающий; Ван Даоюанский перевод Ван Даоюанского перевода

Холден Карау, инженер по разработке программного обеспечения DataBricks, активен в сообществе с открытым исходным кодом.У нее также есть «Spark Quick Data Resecking».