Ручная версия онлайн -хруппа с помощью CD+технология сбора сетевых данных Technology Java Network Crawler Фактические бои 2 тома принципов разработки сети и
Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.
- Информация о товаре
- Фотографии
A8 9787000083351 9787302442646 9787121376078
(Этот набор содержит следующие книги и нажмите на название книги, чтобы купить один том)
Рукописный сетевой гусеница самостоятельно (пересмотренная версия с CD) 9787302442646   цена: 49,00 юань
Технология сбора сетевых данных—— Java Network Crawler Faction Combat 9787121376078   цена:  79,00 Юань
Название: Напишите интернет -захват самостоятельно (пересмотренная версия с CD)
Цена: 49,00 Юань
Пресса: издательство Tsinghua University Press
ISBN: 9787302442646
Издание: 1
Упаковка: Тихий океан
Открыто: 16
Время публикации: 2016-08-01
Бумага: пластическая версия бумага
Количество страниц: 352
Слова: 535000
Неудачный текст: китайский
Эта книга представляет ключевые проблемы и реализацию Java в разработке онлайн -сканеров.В основном он включает в себя получение информации и информации о извлечении из Интернета и добыча веб -информации.Эта книга фокусируется на основных принципах и фокусируется на реализации конкретного кода, чтобы помочь читателям углубить их понимание. Некоторый код в книге может даже использоваться напрямую.Эта книга применима к разработчикам с базовым дизайном программы Java.В то же время его также можно использовать в качестве справочного учебника для специальностей, связанных с компьютером или выпускниками.
1 статья сами справитесь с данными
1 глава  всесторонне анализировать сетевые сканеры 3
1.1  Grave Web -страницу 4
1.1.1 in -depth url url 4
1.1.2 краб через указанный URL
веб-контент 6
1.1.3  Пример захвата веб -страницы Java 8
1.1.4  Обработка кода состояния HTTP 10
1.2 предпочтительные рептилии и рептилий с предпочтениями 12
1.2.1 ширина фигуры предпочтительнее проходить 12
1.2.2 ширина предпочитает пересекать Интернет 13
1.2.3 java ширина предпочтительный пример Crawler 15
1.2.4 рептилия с предпочтениями 22
1.2.5&Nbsp; java с предпочтительным примером рептилии 23
1.3  Design Ridies 24
1.3.1 очередь рептилий 24
1.3.2  используйте Беркли Д.Б.
очередь 29
1.3.3  используйте Беркли Д.Б.
Квестный пример 30
1.3.4 строительство с фильтром цветения
Посещенный стол 36
1.3.5 подробный очередь рептилий Heritrix 39
1.4  проектная рептимическая архитектура 46
1.4.1 архитектура рептилий 46
1.4.2  Дизайн параллельной архитектуры хрупки 47
1.4.3  подробная архитектура рептилий Heritrix 52
1.5  Используйте многопоточные технологии для повышения производительности гусеницы 55
1.5.1 подробный Java multi -thread 55
1.5.2&Nbsp; мультичта 59
1.5.3 простая многочисленная реализация гусеницы 60
1.5.4  подробная многопоточная структура Heritrix 61
краткое содержание главы 64
Глава 2 распределенный хлисто 69
2.1  Дизайн распределенного гусеницы 70
2.1.1  распределенные и облачные вычисления 70
2.1.2  технология распределенных и облачных вычислений в
Применение анализа с толкованием сканеров.
Архитектура облачных вычислений Google 72
2.2  Распределенное хранилище 72
2.2.1 от ralation_db до ключа/значение
хранилище 72
2.2.2  Постоянный хэш -алгоритм 74
2.2.3  Постоянная реализация хеш -кода 79
2.3&Nbsp; способ успеха Google 80
2.3.1  GFS подробное объяснение 80
2.3.2  GFS-HDF с открытым исходным кодом 84
2.4  Google Web Storage Secret -Bigtable 88
2.4.1  подробное объяснение BigTable 88
2.4.2  с открытым исходным кодом BigTable-HBASE 93
2.5  способ успеха Google-
MapReduce Algorithm 98
2.5.1  подробный алгоритм MapReduce 100
2.5.2  MAPREDUCE Обработка устойчивости к разлову 101
2.5.3 архитектура реализации MapReduce 102
2.5.4 mapreduce в Hadoop
Краткое введение 104
2.5.5&Реализация примеров NBSP; 105
2.6  распределение в Nutch 109
2.6.1&Nbsp; nutch Reptile подробное объяснение 109
2.6.2  распределение в Nutch 116
краткое содержание главы 118
Глава 3  Рептилия"Все аспекты" 121
3.1 Crawler"Черная дыра" 122
3.2 тема Тема 122
3.2.1 понимать тема 122
3.2.2 java theme Crawler 128
3.2.3  понимание ограниченных рептилий 130
3.2.4&Nbsp; java Limited Crawler пример 136
3.3 "Мораль"Гусеничный трактор 152
краткое содержание главы 156
Глава 2 сами возьми веб -контент
Глава 4 "иметь дело с"HTML -страница 159
4.1  завоевать регулярное выражение 160
4.1.1  изучать регулярное выражение 160
4.1.2  регулярное выражение Java 163
4.2  извлечь HTML -текст 169
4.2.1 знаю jsoup 169
4.2.2  пример использования регулярных выражений 173
4.3  извлечь текст 177
4.4  Получите информацию из JavaScript 193
4.4.1  метод извлечения JavaScript 193
4.4.2  пример извлечения JavaScript 195
краткое содержание главы 197
Глава 5 не -Html извлечение текста 199
5.1  извлечь файл PDF 200
5.1.1 изучать pdfbox 200
5.1.2  используйте пример извлечения PDFBox 204
5.1.3  извлечь заголовок файла PDF 205
5.1.4  классификация формата PDF 206
5.2  извлечь офисный документ 211
5.2.1 изучать poi 211
5.2.2  используйте POI, чтобы извлечь пример слова 211
5.2.3  используйте POI для извлечения примера PPT 213
5.2.4  используйте POI для извлечения примера Excel 214
5.3  экстракт RTF 217
5.3.1  анализатор файла с открытым исходным кодом RTF 217
5.3.2  Реализация анализатора файла RTF 217
5.3.3  анализировать пример RTF 222
краткое содержание главы 227
Глава 6  извлечение мультимедиа 229
6.1  извлечение видео 230
6.1.1  Поднимите кадры видео -ключей 230
6.1.2 java -видео -обработка 231
6.1.3  пример извлечения видео Java 235
6.2  извлечение звука 247
6.2.1 извлечение звук 248
6.2.2  технология извлечения звука Java 252
краткое содержание главы 254
Глава 7 удалить веб -страницу"шум" 255
7.1 "шум"Влияние на веб -страницы 256
7.2 использование"статистика"устранять"шум" 257
7.2.1 дерево стиля веб -сайта 260
7.2.2"Статистический шум"из
Реализация Java 268
7.3 использование"Зрение"устранять"шум" 272
7.3.1 "Зрение"и"шум" 272
7.3.2 "Визуальный шум"Реализация Java 273
краткое содержание главы 277
Глава 3  копание веб -данных самостоятельно
Глава 8  анализировать веб -диаграмму 281
8.1  магазин"картина" 282
8.2 используйте сеть"картина"Ссылка анализа 291
8.3  Secret-PageRank Google 291
8.3.1 в -depth 291
8.3.2  PageRank Algorithm внедрение Java 295
8.3.3  применение страниц для ссылки
анализировать 298
8.4  брат PageRank хита 299
8.4.1 в -depth inpect of the Hits Algorithm 299
8.4.2 java реализация алгоритма хитов 300
8.4.3  применить хиты для анализа ссылок 311
8.5 pagerank и хиты 312
краткое содержание главы 313
Глава 9 удалить"повторить"Документация 315
9.1 что такое"повторить"Документация 316
9.2 использование"Семантический отпечаток пальца"Тяжелый разряд 316
9.2.1 понять"Семантический отпечаток пальца" 318
9.2.2 "Семантический отпечаток пальца"Эксклюзивный
Реализация Java 319
9.3  Рейтинг SIMHASH 319
9.3.1 понимать Симхаш 320
9.3.2&Nbsp; simhash row java реализация 321
9.4  распределенная продолжительность документации 328
краткое содержание главы 329
Глава 10  Классификация и кластерная применение 331
10.1  веб -категория 332
10.1.1 собирать корпус 332
10.1.2  выберите веб -страницу"особенность" 333
10.1.3 используйте машину поддержки вектора, чтобы сделать
Веб -категория 336
10.1.4 используйте адрес URL
Веб -категория 338
10.1.5 используйте Adaboost
Веб -категория 338
10.2  веб -кластер 341
10.2.1 в диапазоне алгоритма DBSCAN 341
10.2.2  Используйте кластер алгоритма DBSCAN
  экземпляр 342
краткое содержание главы 344
Заголовок:  Технология сбора сетевых данных—— Java Network Crawler Faction Combat
Автор: Qianyang
Опубликованная дата:  ноябрь 2019
Цена:  79,00 Юань
Номер ISBN: 9787121376078
формат:  16 открыто
Это костюм: нет
Название издательства:  Electronic Industry Press
«Технология сбора сетевых данных: Java Circles Counterence» использует Java в качестве языка разработки для систематического представления теоретических знаний и основных инструментов онлайн -сканеров, включая основные знания Java, участвующих в сетевом Crawler, основе протокола HTTP и сети Засорение, получение контента веб -страницы, анализ контента страниц и онлайн -хранение данных.Эта книга выбирает типичные веб -сайты и использует объяснения корпуса для введения проблем, связанных с сетевыми сканерами для улучшения рук читателей -на практических способностях.В то же время эта книга также представляет три типа фрейлеров с открытым исходным кодом Java с открытым исходным кодом, а именно Crawler4j, Webcollector и Webmagic.
«Технология сбора сетевых данных: Java Network Capture Faction Bight» подходит для начинающих и продвинутых ведущих развития сети Java; оно также может использоваться в качестве справочника для онлайн -скалеров для обучения, для добычи текста, обработки естественного языка, бизнеса с большими данными. В колледжах и университетах бакалавриат и аспирантов по смежным дисциплинам, таким как анализ; его также можно использовать для разработчиков корпоративных сети Crawler для справки.
Глава 1 Обзор веб -клетки и принципы. 1
1.1 Введение в интернет -CRAC 1
1.2 Классификация сети 2
1.3 Процесс сетевого гусени 4
1.4 Стратегия сбора сетевых сканеров 5
1.5 Предложения по изучению интернет -сканеров 5
1.6 Сводка этой главы .. 6
Глава 2 Основные знания Java, вовлеченные в рептилию в Интернете .. 7
2.1 Строительство среды развития .. 7
2.1.1 Установка JDK и конфигурация переменной среды. 7
2.1.2 Скачать Eclipse. 9
2.2 Основной тип данных. 10
2.3 массив .. 11
2.4 Условие суждения и цикла 12
2,5 GATE .. 15
2.5.1. 15
2.5.2 Коллекция карт. 16
2.5.3 Коллекция очередей. 17
2.6 Объекты и классы 19
2.7 Класс строки .. 21
2.8 Обработка даты и времени 23
2.9 Регулярное выражение .. 26
2.10 Maven Project Creation 29
2.11 log4j Использование .. 33
2.12 Резюме этой главы. 40
Глава 3 Основная база соглашения HTTP и захват сети 41
3.1 Введение в протокол HTTP. 41
3.2 URL .. 42
3.3 Сообщение .. 44
3.4 Метод запроса HTTP. 46
3.5 код состояния http .. 46
3.5.1 Код состояния 2xx 47
3.5.2 Код состояния 3xx 47
3.5.3 Код состояния 4xx 48
3.5.4 Код состояния 5xx 48
3.6 HTTP Information Head .. 48
3.6.1 Гм голова .. 49
3.6.2 Заголовок запроса .. 52
3.6.3.
3.6.4 Глава объекта .. 56
3.7 Текст ответа http. 57
3.7.1 HTML 58
3.7.2 XML .. 60
3.7.3 JSON .. 61
3.8 Сетевая сумка 64
3.8.1 Введение 64
3.8.2 Использовать ситуацию. 65
3.8.3 Браузеры реализуют сетевые сумки 65
3.8.4 Рекомендуется другими инструментами сетевой упаковки .. 70
3.9 Резюме этой главы 70
4 ГЛАВА ПОЛУЧЕНИЕ ВЕБ -контента 71
4.1 JSoup Использование 71
4.1.1 Скачать пакет JAR .. 71
4.1.2 Запрос URL 72
4.1.3 Установите информацию заголовка 75
4.1.4 Отправить параметры запроса .. 78
Установлен в 4.1.5. 80
4.1.6 Использование прокси -сервера. 81
4.1.7 Ответ ротационный выходной поток (загрузка изображений, PDF и т. Д.). 83.
4.1.8 Сертификация HTTPS запроса 85
4.1.9 Проблема сбора содержимого файла 89
4.2 Использование httpclient .. 91
4.2.1 Скачать пакет JAR .. 91
4.2.2 Запрос URL 92
4.2.3 Entityutils. 97
4.2.4 Установите информацию заголовка 98
4.2.5. Отправить форму. 100
4.2.6 Настройки .. 103
4.2.7 Использование прокси -сервера .. 105
4.2.8 Скачать файл .. 106
4.2.9 Сертификация HTTPS запроса. 108
4.2.10 запрос повторения 111
4.2.11 Multi -Thread Exection. 114
4.3 UrlConnection и HttpurlConnection 117
4.3.1 Инстанция 117
4.3.2 Получите контент веб -страницы 118
4.3.3 Получить запрос .. 118
4.3.4 Форма отправки моделирования (запрос сообщения). 119
4.3.5 Установите информацию о заголовке. 120
4.3.6 Настройки при подключении 121
4.3.7 Использование прокси -сервера .. 122
4.3.8 Сертификация запроса HTTPS. 122
4.4 Резюме этой главы. 124
Глава 5 Анализ веб -контента. 125
5.1 HTML -анализ 125
5.1.1 Селектор CSS. 125
5.1.2 xpath Грамматика 127
5.1.3 jsoup -анализ HTML 128
5.1.4 HTMLCleaner Analysis Html. 135
5.1.5 HTMLParser SAINGING HTML 139
5.2 Анализ XML .. 144
5.3 Анализ JSON .. 145
5.3.1 Коррекция JSON 145
5.3.2 org.json Reaching Json. 147
5.3.3 Анализ GSON JSON 152
5.3.4 Анализ Fastjson Json. 157
5.3.5 Практика условий сетевых сканеров .. 159
5.4 Сводка этой главы. 165
Глава 6 Хранение данных сети Caple 166
6.1 Входной поток и выходной поток. 166
6.1.1 Введение. 166
6.1.2 Класс файлов. 166
6.1.3 Файл Byditcae. 169
6.1.4 Поток символов файла. 172
6.1.5 Буферный поток 176
6.1.6 онлайн -хрупер скачать картинки фактические боя 180
6.1.7 Сетевое хранение текстового хранения 184
6.2 Excel Storage .. 188
6.2.1 Использование JXL. 188
6.2.2 POI использование .. 191
6.2.3 Случаи рептилий .. 198
6.3 Storage MySQL данных .. 202
6.3.1 Основная концепция базы данных .. 203
6.3.2 Фонд заявления SQL 203
6.3.3 Java в качестве базы данных .. 207
6.3.4 Случаи рептилий .. 217
6.4 Сводка этой главы. 219
Глава 7 Интернет -аварий 220
7.1 Сбор данных новостей .. 220
7.1.1 Собранная веб -страница. 220
7.1.2 Введение в рамках .. 222
7.1.3 Программирование .. 223
7.2 Корпоративная информация сборы .. 235
7.2.1 Собранная веб -страница. 235
7.2.2 Введение в рамках .. 238
7.2.3 Один уровень сбора информации 239
7.2.4.
7.3 Сбор информации о запасах .. 256
7.3.1 Собранная веб -страница. 256
7.3.2 Введение в рамках .. 257
7.3.3 Программирование .. 258
7.3.4 Задача планирования графиков Кварцевого реализации .. 267
7.4 Резюме этой главы. 271
Глава 8 Использование селена .. 272
8.1 Введение Селена .. 272
8.2 Java Selenium Environment. 272
8.3 Управление браузером .. 274
8.4 позиционирование элемента. 276
8.4.1 позиционирование ID 276
8.4.2 позиционирование имени. 277
8.4.3 позиционирование класса .. 278
8.4.4 позиционирование имени тега. 278
8.4.5 Позиционирование текста ссылки .. 278
8.4.6 Позиционирование XPath 279
8.4.7 позиционирование селектора CSS .. 279
8.5 Вход в симуляцию. 280
8.6 Данные с динамической загрузкой JavaScript (как прокатная полоса). 283
8.7 Скрытый браузер 285
8.8 Проверьте код проверки 287
8.9 Резюме этой главы. 291
Глава 9 Интернет CRAC Open Open Framework 292
9.1 Использование CRAWLER4J 292
9.1.1 Crawler4j Введение 292
9.1.2 Скачать пакет JAR 292
9.1.3 Дело введения .. 293
9.1.4 Связанная конфигурация .. 297
9.1.5 Коллекция картин. 300
9.1.6 Сбор данных на складе 304
9.2 ИСПОЛЬЗОВАНИЕ WEBCollector 312
9.2.1 Введение в WebCollector .. 312
9.2.2 Скачать пакет JAR 313
9.2.3 Дело введения .. 313
9.2.4 Связанная конфигурация .. 318
9.2.5 http request extension. 319
9.2.6 Сбор данных по поводу поворота страниц 327
9.2.7 Коллекция картин. 331
9.2.8 Сбор данных в складе 334
9.3 Использование веб -магии .. 347
9.3.1 Введение в Webmagic. 347
9.3.2 Скачать пакет JAR 347
9.3.3 Случай начала работы (сбор данных данных на странице). 347
9.3.4 Связанная конфигурация .. 351
9.3.5 Метод хранения данных 352
9.3.6 Сбор данных на складе 355
9.3.7 Коллекция картин. 365
9.4 Резюме этой главы. 368