Скрапинг веб-сайтов с помощью Python

Скрапинг веб-сайтов с помощью Python
sku: 94229720
ACCORDING TO OUR RECORDS THIS PRODUCT IS NOT AVAILABLE NOW
909.00 грн.
Shipping from: Ukraine
   Description
[html]В книге "Скрапинг веб-сайтов с помощью Python" вы изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие, как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.Прочитав книгу "Скрапинг веб-сайтов с помощью Python", вы научитесь:- выполнять парсинг сложных HTML страниц;- сканировать веб-страницы и сайты;- работать с API;- применять несколько методов хранения собранных данных;- скачивать, обрабатывать и извлекать данные из документов;- использовать инструменты и методы для очистки плохо отформатированных данных;- читать и записывать естественные языки;- выполнять краулинг с использованием регистрационных форм;- выполнять скрапинг Javascript-кода;- обрабатывать изображения и распознавать текст.Инструменты и примеры, приведенные в этой книге, позволяют легко автоматизировать несколько повторяющихся задач, высвобождая время для решения более насущных проблем. Это легко читаемая, ориентированная на конкретный результат книга, рассказывающая о реальных проблемах и решениях. Содержание книги "Скрапинг веб-сайтов с помощью Python"Предисловие....................................................................................10Вступление.......................................................................................13ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ.........................................20Глава 1. Ваш первый скрапер.......................................................21Соединение с Интернетом................................................................................21Введение в BeautifulSoup..................................................................................24Установка BeautifulSoup...............................................................................24Запуск BeautifulSoup.....................................................................................26Как обеспечить надежный скрапинг........................................................28Глава 2. Продвинутый парсинг HTML..........................................31Вам не всегда нужен молоток..........................................................................31Еще одно применение BeautifulSoup............................................................32find() и findAll()...............................................................................................34Другие объекты BeautifulSoup...................................................................36Навигация по дереву синтаксического разбора...................................37Работа с дочерними элементами и элементами-потомками............38Работа с одноуровневыми элементами...................................................39Работа с родительскими элементами.......................................................40Регулярные выражения.....................................................................................41Регулярные выражения и BeautifulSoup.....................................................46Получение доступа к атрибутам.....................................................................47Лямбда-выражения.............................................................................................48За рамками BeautifulSoup.................................................................................48Глава 3. Запуск краулера................................................................50Обход отдельного домена..................................................................................50Краулинг всего сайта..........................................................................................54Сбор данных по всему сайту............................................................................57Краулинг Интернета...........................................................................................59Краулинг с помощью Scrapy............................................................................65Глава 4. Использование API..........................................................70Как работают API.................................................................................................71Общепринятые соглашения.............................................................................72Методы...............................................................................................................72Аутентификация..............................................................................................73Ответы.....................................................................................................................74Вызовы API.......................................................................................................75Echo Nest.................................................................................................................76Несколько примеров......................................................................................76Twitter.......................................................................................................................78Приступаем к работе......................................................................................78Несколько примеров......................................................................................79Google API..............................................................................................................83Приступаем к работе......................................................................................83Несколько примеров......................................................................................84Парсинг JSON-данных.......................................................................................86Возвращаем все это домой................................................................................88Подробнее о применении API.........................................................................92Глава 5. Хранение данных.............................................................94Медиафайлы..........................................................................................................94Сохранение данных в формате CSV..............................................................97MySQL.....................................................................................................................99Установка MySQL........................................................................................ 100Некоторые основные команды................................................................ 102Интеграция с Python.................................................................................. 106Методы работы с базами данных и эффективная практика......... 109"Шесть шагов" в MySQL.......................................................................... 112Электронная почта........................................................................................... 115Глава 6. Чтение документов........................................................117Кодировка документа...................................................................................... 117Текст....................................................................................................................... 118Кодировка текста и глобальный Интернет......................................... 119CSV........................................................................................................................ 124Чтение CSV-файлов.................................................................................... 124PDF........................................................................................................................ 126Microsoft Word и .docx..................................................................................... 128ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ.....................................132Глава 7. Очистка данных..............................................................133Очистка данных на этапе создания кода................................................... 133Нормализация данных............................................................................... 136Очистка данных постфактум........................................................................ 138OpenRefine...................................................................................................... 139Глава 8. Чтение и запись естественных языков......................144Аннотирование данных................................................................................... 145Марковские модели.......................................................................................... 148Шесть шагов Википедии: заключительная часть............................. 152Natural Language Toolkit................................................................................. 156Установка и настройка............................................................................... 156Статистический анализ с помощью NLTK......................................... 156Лексикографический анализ с помощью NLTK............................... 160Дополнительные ресурсы.............................................................................. 163Глава 9. Краулинг сайтов, использующих веб-формы...........165Библиотека requests......................................................................................... 165Отправка простой формы.............................................................................. 166Радиокнопки, флажки и другие элементы ввода данных................... 168Отправка файлов и изображений................................................................ 170Работа с логинами и cookies.......................................................................... 171Базовая HTTP-аутентификация............................................................ 173Другие проблемы при работе с формами................................................. 174Глава 10. Скрапинг JavaScript-кода............................................175Краткое введение в JavaScript...................................................................... 176Распространенные библиотеки JavaScript.......................................... 177Ajax и динамический HTML......................................................................... 180Выполнение JavaScript в Python с помощью библиотекиSelenium........................................................................................................... 181Обработка редиректов..................................................................................... 186Глава 11. Обработка изображений и распознаваниетекста...............................................................................................189Обзор библиотек............................................................................................... 190Pillow................................................................................................................ 190Tesseract........................................................................................................... 191NumPy.............................................................................................................. 192Обработка хорошо отформатированного текста................................... 193Скрапинг текста с изображений, размещенныхна веб-сайтах.................................................................................................. 196Чтение CAPTCHA и обучение Tesseract.................................................. 198Обучение Теsseract...................................................................................... 200Извлечение CAPTCHA и отправка результатов.распознавания.................................................................................................... 204Глава 12. Обход ловушек в ходе скрапинга..............................208Обратите внимание на этический аспект................................................. 209Учимся выглядеть как человек..................................................................... 210Настройте заголовки................................................................................... 210Обработка cookies........................................................................................ 212Время решает все......................................................................................... 214Общие функции безопасности, используемые веб-формами........... 215Значения полей скрытого ввода............................................................. 215Обходим "горшочки с медом"................................................................. 217Проверяем скрапер на "человечность"..................................................... 219Глава 13. Тестирование вашего сайта с помощьюскраперов........................................................................................221Введение в тестирование................................................................................ 222Что такое модульные тесты?.................................................................... 222Питоновский модуль unittest....................................................................... 223Тестирование Википедии.......................................................................... 224Тестирование с помощью Selenium............................................................. 227Взаимодействие с сайтом.......................................................................... 227Unittest или Selenium?.................................................................................... 231Глава 14. Скрапинг с помощью удаленных серверов............233Зачем использовать удаленные серверы?................................................ 233Как избежать блокировки IP-адреса..................................................... 234Переносимость и расширяемость........................................................... 235Tor........................................................................................................................... 236PySocks............................................................................................................ 237Удаленный хостинг........................................................................................... 238Запуск с аккаунта веб-хостинга.............................................................. 238Запуск из облака.......................................................................................... 240Дополнительные ресурсы.............................................................................. 241Заглянем в будущее.......................................................................................... 242Приложение А. Кратко о том, как работает Python..................244Установка и "Hello, World!".......................................................................... 244Приложение В. Кратко о том, как работает Интернет..............248Приложение С. Правовые и этические аспектывеб-скрапинга.................................................................................252Товарные знаки, авторские права, патенты, о боже!............................. 252Авторское право........................................................................................... 254Посягательство на движимое имущество................................................. 256Закон о компьютерном мошенничестве и злоупотреблении............ 258robots.txt и Пользовательское соглашение.............................................. 259Три нашумевших случая в практикевеб-скрапинга..................................................................................................... 263eBay против Bidder's Edge и посягательство на движимоеимущество....................................................................................................... 263США против Орнхаймера и Закон о компьютерноммошенничестве и злоупотреблении....................................................... 265Филд против Google: авторское правои robots.txt...................................................................................................... 268Об авторе........................................................................................269Колофон..........................................................................................270Предметный указатель.................................................................271[/html]
   Technical Details
categoryTitle: Научная и техническая литература
rating: 0
   Price history chart & currency exchange rate

Customers also viewed