8 (905) 200-03-37 Владивосток
с 09:00 до 19:00
CHN - 1.14 руб. Сайт - 17.98 руб.

Ручная версия онлайн -хруппа с помощью CD+технология сбора сетевых данных Technology Java Network Crawler Фактические бои 2 тома принципов разработки сети и

Цена: 1 682руб.    (¥93.5)
Артикул: 607585293256

Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.

Этот товар на Таобао Описание товара
Продавец:兰兴达图书专营店
Адрес:Пекин
Рейтинг:
Всего отзывов:0
Положительных:0
Добавить в корзину
Другие товары этого продавца
¥ 80 46.6838руб.
¥711 277руб.
¥46.8842руб.
¥ 49.8 39.6713руб.

A8  9787000083351  9787302442646 9787121376078

(Этот набор содержит следующие книги и нажмите на название книги, чтобы купить один том)

Рукописный сетевой гусеница самостоятельно (пересмотренная версия с CD) 9787302442646   цена: 49,00 юань
Технология сбора сетевых данных—— Java Network Crawler Faction Combat  9787121376078   цена:  79,00 Юань

Название: Напишите интернет -захват самостоятельно (пересмотренная версия с CD)

Цена: 49,00 Юань

Пресса: издательство Tsinghua University Press

ISBN: 9787302442646

Издание: 1

Упаковка: Тихий океан

Открыто: 16

Время публикации: 2016-08-01

Бумага: пластическая версия бумага

Количество страниц: 352

Слова: 535000

Неудачный текст: китайский

Эта книга представляет ключевые проблемы и реализацию Java в разработке онлайн -сканеров.В основном он включает в себя получение информации и информации о извлечении из Интернета и добыча веб -информации.Эта книга фокусируется на основных принципах и фокусируется на реализации конкретного кода, чтобы помочь читателям углубить их понимание. Некоторый код в книге может даже использоваться напрямую.Эта книга применима к разработчикам с базовым дизайном программы Java.В то же время его также можно использовать в качестве справочного учебника для специальностей, связанных с компьютером или выпускниками.

1 статья  сами справитесь с данными

1 глава  всесторонне анализировать сетевые сканеры    3

1.1  Grave Web -страницу    4

1.1.1  in -depth url url    4

1.1.2  краб через указанный URL

веб-контент    6

1.1.3  Пример захвата веб -страницы Java    8

1.1.4  Обработка кода состояния HTTP    10

1.2  предпочтительные рептилии и рептилий с предпочтениями    12

1.2.1  ширина фигуры предпочтительнее проходить    12

1.2.2  ширина предпочитает пересекать Интернет    13

1.2.3  java ширина предпочтительный пример Crawler    15

1.2.4  рептилия с предпочтениями    22

1.2.5&Nbsp; java с предпочтительным примером рептилии    23

1.3  Design Ridies    24

1.3.1  очередь рептилий    24

1.3.2  используйте Беркли Д.Б.

очередь    29

1.3.3  используйте Беркли Д.Б.

Квестный пример    30

1.3.4  строительство с фильтром цветения

Посещенный стол    36

1.3.5  подробный очередь рептилий Heritrix    39

1.4  проектная рептимическая архитектура    46

1.4.1  архитектура рептилий    46

1.4.2  Дизайн параллельной архитектуры хрупки    47

1.4.3  подробная архитектура рептилий Heritrix    52

1.5  Используйте многопоточные технологии для повышения производительности гусеницы    55

1.5.1  подробный Java multi -thread    55

1.5.2&Nbsp; мультичта    59

1.5.3  простая многочисленная реализация гусеницы    60

1.5.4  подробная многопоточная структура Heritrix    61

краткое содержание главы    64

Глава 2  распределенный хлисто    69

2.1  Дизайн распределенного гусеницы    70

2.1.1  распределенные и облачные вычисления    70

2.1.2  технология распределенных и облачных вычислений в

Применение анализа с толкованием сканеров.

Архитектура облачных вычислений Google    72

2.2  Распределенное хранилище    72

2.2.1  от ralation_db до ключа/значение

хранилище    72

2.2.2  Постоянный хэш -алгоритм    74

2.2.3  Постоянная реализация хеш -кода    79

2.3&Nbsp; способ успеха Google    80

2.3.1  GFS подробное объяснение    80

2.3.2  GFS-HDF с открытым исходным кодом    84

2.4  Google Web Storage Secret -Bigtable    88

2.4.1  подробное объяснение BigTable    88

2.4.2  с открытым исходным кодом BigTable-HBASE    93

2.5  способ успеха Google-

MapReduce Algorithm    98

2.5.1  подробный алгоритм MapReduce    100

2.5.2  MAPREDUCE Обработка устойчивости к разлову    101

2.5.3  архитектура реализации MapReduce    102

2.5.4  mapreduce в Hadoop

Краткое введение    104

2.5.5&Реализация примеров NBSP;    105

2.6  распределение в Nutch    109

2.6.1&Nbsp; nutch Reptile подробное объяснение    109

2.6.2  распределение в Nutch    116

краткое содержание главы    118

Глава 3  Рептилия"Все аспекты"    121

3.1  Crawler"Черная дыра"    122

3.2  тема Тема    122

3.2.1  понимать тема    122

3.2.2  java theme Crawler    128

3.2.3  понимание ограниченных рептилий    130

3.2.4&Nbsp; java Limited Crawler пример    136

3.3 "Мораль"Гусеничный трактор    152

краткое содержание главы    156

Глава 2  сами возьми веб -контент

Глава 4 "иметь дело с"HTML -страница    159

4.1  завоевать регулярное выражение    160

4.1.1  изучать регулярное выражение    160

4.1.2  регулярное выражение Java    163

4.2  извлечь HTML -текст    169

4.2.1  знаю jsoup    169

4.2.2  пример использования регулярных выражений    173

4.3  извлечь текст    177

4.4  Получите информацию из JavaScript    193

4.4.1  метод извлечения JavaScript    193

4.4.2  пример извлечения JavaScript    195

краткое содержание главы    197

Глава 5  не -Html извлечение текста    199

5.1  извлечь файл PDF    200

5.1.1  изучать pdfbox    200

5.1.2  используйте пример извлечения PDFBox    204

5.1.3  извлечь заголовок файла PDF    205

5.1.4  классификация формата PDF    206

5.2  извлечь офисный документ    211

5.2.1  изучать poi    211

5.2.2  используйте POI, чтобы извлечь пример слова    211

5.2.3  используйте POI для извлечения примера PPT    213

5.2.4  используйте POI для извлечения примера Excel    214

5.3  экстракт RTF    217

5.3.1  анализатор файла с открытым исходным кодом RTF    217

5.3.2  Реализация анализатора файла RTF    217

5.3.3  анализировать пример RTF    222

краткое содержание главы    227

Глава 6  извлечение мультимедиа    229

6.1  извлечение видео    230

6.1.1  Поднимите кадры видео -ключей    230

6.1.2  java -видео -обработка    231

6.1.3  пример извлечения видео Java    235

6.2  извлечение звука    247

6.2.1  извлечение звук    248

6.2.2  технология извлечения звука Java    252

краткое содержание главы    254

Глава 7  удалить веб -страницу"шум"    255

7.1 "шум"Влияние на веб -страницы    256

7.2  использование"статистика"устранять"шум"    257

7.2.1  дерево стиля веб -сайта    260

7.2.2"Статистический шум"из

Реализация Java    268

7.3  использование"Зрение"устранять"шум"    272

7.3.1 "Зрение"и"шум"    272

7.3.2 "Визуальный шум"Реализация Java    273

краткое содержание главы    277

Глава 3  копание веб -данных самостоятельно

Глава 8  анализировать веб -диаграмму    281

8.1  магазин"картина"    282

8.2  используйте сеть"картина"Ссылка анализа    291

8.3  Secret-PageRank Google    291

8.3.1  в -depth    291

8.3.2  PageRank Algorithm внедрение Java    295

8.3.3  применение страниц для ссылки

анализировать    298

8.4  брат PageRank хита    299

8.4.1  в -depth inpect of the Hits Algorithm    299

8.4.2  java реализация алгоритма хитов    300

8.4.3  применить хиты для анализа ссылок    311

8.5  pagerank и хиты    312

краткое содержание главы    313

Глава 9  удалить"повторить"Документация    315

9.1  что такое"повторить"Документация    316

9.2  использование"Семантический отпечаток пальца"Тяжелый разряд    316

9.2.1  понять"Семантический отпечаток пальца"    318

9.2.2 "Семантический отпечаток пальца"Эксклюзивный

Реализация Java    319

9.3  Рейтинг SIMHASH    319

9.3.1  понимать Симхаш    320

9.3.2&Nbsp; simhash row java реализация    321

9.4  распределенная продолжительность документации    328

краткое содержание главы    329

Глава 10  Классификация и кластерная применение    331

10.1  веб -категория    332

10.1.1  собирать корпус    332

10.1.2  выберите веб -страницу"особенность"    333

10.1.3  используйте машину поддержки вектора, чтобы сделать

Веб -категория    336

10.1.4  используйте адрес URL

Веб -категория    338

10.1.5  используйте Adaboost

Веб -категория    338

10.2  веб -кластер    341

10.2.1  в диапазоне алгоритма DBSCAN    341

10.2.2  Используйте кластер алгоритма DBSCAN

  экземпляр    342

краткое содержание главы    344 

Заголовок:  Технология сбора сетевых данных—— Java Network Crawler Faction Combat

Автор:  Qianyang

Опубликованная дата:  ноябрь 2019

Цена:  79,00 Юань

Номер ISBN: 9787121376078

формат:  16 открыто

Это костюм:  нет

Название издательства:  Electronic Industry Press

Введение. JPG

«Технология сбора сетевых данных: Java Circles Counterence» использует Java в качестве языка разработки для систематического представления теоретических знаний и основных инструментов онлайн -сканеров, включая основные знания Java, участвующих в сетевом Crawler, основе протокола HTTP и сети Засорение, получение контента веб -страницы, анализ контента страниц и онлайн -хранение данных.Эта книга выбирает типичные веб -сайты и использует объяснения корпуса для введения проблем, связанных с сетевыми сканерами для улучшения рук читателей -на практических способностях.В то же время эта книга также представляет три типа фрейлеров с открытым исходным кодом Java с открытым исходным кодом, а именно Crawler4j, Webcollector и Webmagic.

«Технология сбора сетевых данных: Java Network Capture Faction Bight» подходит для начинающих и продвинутых ведущих развития сети Java; оно также может использоваться в качестве справочника для онлайн -скалеров для обучения, для добычи текста, обработки естественного языка, бизнеса с большими данными. В колледжах и университетах бакалавриат и аспирантов по смежным дисциплинам, таким как анализ; его также можно использовать для разработчиков корпоративных сети Crawler для справки.

Каталог. JPG

Глава 1 Обзор веб -клетки и принципы. 1

1.1 Введение в интернет -CRAC  1

1.2 Классификация сети  2

1.3 Процесс сетевого гусени  4

1.4 Стратегия сбора сетевых сканеров  5

1.5 Предложения по изучению интернет -сканеров  5

1.6 Сводка этой главы .. 6

Глава 2 Основные знания Java, вовлеченные в рептилию в Интернете .. 7

2.1 Строительство среды развития .. 7

2.1.1 Установка JDK и конфигурация переменной среды. 7

2.1.2 Скачать Eclipse. 9

2.2 Основной тип данных. 10

2.3 массив .. 11

2.4 Условие суждения и цикла  12

2,5 GATE .. 15

2.5.1.  15

2.5.2 Коллекция карт. 16

2.5.3 Коллекция очередей. 17

2.6 Объекты и классы  19

2.7 Класс строки .. 21

2.8 Обработка даты и времени  23

2.9 Регулярное выражение .. 26

2.10 Maven Project Creation  29

2.11 log4j Использование .. 33

2.12 Резюме этой главы. 40

Глава 3 Основная база соглашения HTTP и захват сети  41

3.1 Введение в протокол HTTP. 41

3.2 URL .. 42

3.3 Сообщение .. 44

3.4 Метод запроса HTTP. 46

3.5 код состояния http .. 46

3.5.1 Код состояния 2xx  47

3.5.2 Код состояния 3xx  47

3.5.3 Код состояния 4xx  48

3.5.4 Код состояния 5xx  48

3.6 HTTP Information Head .. 48

3.6.1 Гм голова .. 49

3.6.2 Заголовок запроса .. 52

3.6.3.

3.6.4 Глава объекта .. 56

3.7 Текст ответа http. 57

3.7.1 HTML  58

3.7.2 XML .. 60

3.7.3 JSON .. 61

3.8 Сетевая сумка  64

3.8.1 Введение  64

3.8.2 Использовать ситуацию. 65

3.8.3 Браузеры реализуют сетевые сумки  65

3.8.4 Рекомендуется другими инструментами сетевой упаковки .. 70

3.9 Резюме этой главы  70

4 ГЛАВА ПОЛУЧЕНИЕ ВЕБ -контента  71

4.1 JSoup Использование  71

4.1.1 Скачать пакет JAR .. 71

4.1.2 Запрос URL  72

4.1.3 Установите информацию заголовка  75

4.1.4 Отправить параметры запроса .. 78

Установлен в 4.1.5. 80

4.1.6 Использование прокси -сервера. 81

4.1.7 Ответ ротационный выходной поток (загрузка изображений, PDF и т. Д.). 83.

4.1.8 Сертификация HTTPS запроса  85

4.1.9 Проблема сбора содержимого файла  89

4.2 Использование httpclient .. 91

4.2.1 Скачать пакет JAR .. 91

4.2.2 Запрос URL  92

4.2.3 Entityutils. 97

4.2.4 Установите информацию заголовка  98

4.2.5. Отправить форму. 100

4.2.6 Настройки .. 103

4.2.7 Использование прокси -сервера .. 105

4.2.8 Скачать файл .. 106

4.2.9 Сертификация HTTPS запроса. 108

4.2.10 запрос повторения  111

4.2.11 Multi -Thread Exection. 114

4.3 UrlConnection и HttpurlConnection  117

4.3.1 Инстанция  117

4.3.2 Получите контент веб -страницы  118

4.3.3 Получить запрос .. 118

4.3.4 Форма отправки моделирования (запрос сообщения). 119

4.3.5 Установите информацию о заголовке. 120

4.3.6 Настройки при подключении  121

4.3.7 Использование прокси -сервера .. 122

4.3.8 Сертификация запроса HTTPS. 122

4.4 Резюме этой главы. 124

Глава 5 Анализ веб -контента. 125

5.1 HTML -анализ  125

5.1.1 Селектор CSS. 125

5.1.2 xpath Грамматика  127

5.1.3 jsoup -анализ HTML  128

5.1.4 HTMLCleaner Analysis Html. 135

5.1.5 HTMLParser SAINGING HTML  139

5.2 Анализ XML .. 144

5.3 Анализ JSON .. 145

5.3.1 Коррекция JSON  145

5.3.2 org.json Reaching Json. 147

5.3.3 Анализ GSON JSON 152

5.3.4 Анализ Fastjson Json. 157

5.3.5 Практика условий сетевых сканеров .. 159

5.4 Сводка этой главы. 165

Глава 6 Хранение данных сети Caple  166

6.1 Входной поток и выходной поток. 166

6.1.1 Введение. 166

6.1.2 Класс файлов. 166

6.1.3 Файл Byditcae. 169

6.1.4 Поток символов файла. 172

6.1.5 Буферный поток  176

6.1.6 онлайн -хрупер скачать картинки фактические боя  180

6.1.7 Сетевое хранение текстового хранения  184

6.2 Excel Storage .. 188

6.2.1 Использование JXL. 188

6.2.2 POI использование .. 191

6.2.3 Случаи рептилий .. 198

6.3 Storage MySQL данных .. 202

6.3.1 Основная концепция базы данных .. 203

6.3.2 Фонд заявления SQL  203

6.3.3 Java в качестве базы данных .. 207

6.3.4 Случаи рептилий .. 217

6.4 Сводка этой главы. 219

Глава 7 Интернет -аварий  220

7.1 Сбор данных новостей .. 220

7.1.1 Собранная веб -страница. 220

7.1.2 Введение в рамках .. 222

7.1.3 Программирование .. 223

7.2 Корпоративная информация сборы .. 235

7.2.1 Собранная веб -страница. 235

7.2.2 Введение в рамках .. 238

7.2.3 Один уровень сбора информации 239

7.2.4.

7.3 Сбор информации о запасах .. 256

7.3.1 Собранная веб -страница. 256

7.3.2 Введение в рамках .. 257

7.3.3 Программирование .. 258

7.3.4 Задача планирования графиков Кварцевого реализации .. 267

7.4 Резюме этой главы. 271

Глава 8 Использование селена .. 272

8.1 Введение Селена .. 272

8.2 Java Selenium Environment. 272

8.3 Управление браузером .. 274

8.4 позиционирование элемента. 276

8.4.1 позиционирование ID  276

8.4.2 позиционирование имени. 277

8.4.3 позиционирование класса .. 278

8.4.4 позиционирование имени тега. 278

8.4.5 Позиционирование текста ссылки .. 278

8.4.6 Позиционирование XPath  279

8.4.7 позиционирование селектора CSS .. 279

8.5 Вход в симуляцию. 280

8.6 Данные с динамической загрузкой JavaScript (как прокатная полоса). 283

8.7 Скрытый браузер  285

8.8 Проверьте код проверки  287

8.9 Резюме этой главы. 291

Глава 9 Интернет CRAC Open Open Framework  292

9.1 Использование CRAWLER4J  292

9.1.1 Crawler4j Введение 292

9.1.2 Скачать пакет JAR  292

9.1.3 Дело введения .. 293

9.1.4 Связанная конфигурация .. 297

9.1.5 Коллекция картин. 300

9.1.6 Сбор данных на складе  304

9.2 ИСПОЛЬЗОВАНИЕ WEBCollector  312

9.2.1 Введение в WebCollector .. 312

9.2.2 Скачать пакет JAR  313

9.2.3 Дело введения .. 313

9.2.4 Связанная конфигурация .. 318

9.2.5 http request extension. 319

9.2.6 Сбор данных по поводу поворота страниц  327

9.2.7 Коллекция картин. 331

9.2.8 Сбор данных в складе  334

9.3 Использование веб -магии .. 347

9.3.1 Введение в Webmagic. 347

9.3.2 Скачать пакет JAR  347

9.3.3 Случай начала работы (сбор данных данных на странице). 347

9.3.4 Связанная конфигурация .. 351

9.3.5 Метод хранения данных  352

9.3.6 Сбор данных на складе  355

9.3.7 Коллекция картин. 365

9.4 Резюме этой главы. 368