Скрапинг веб-сайтов с помощью Python
![Скрапинг веб-сайтов с помощью Python](http://i1.rozetka.ua/goods/12844688/94229720_images_12844688904.jpg)
sku: 94229720
ACCORDING TO OUR RECORDS THIS PRODUCT IS NOT AVAILABLE NOW
909.00 грн.
Shipping from: Ukraine
Description
[html]В книге "Скрапинг веб-сайтов с помощью Python" вы изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие, как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.Прочитав книгу "Скрапинг веб-сайтов с помощью Python", вы научитесь:- выполнять парсинг сложных HTML страниц;- сканировать веб-страницы и сайты;- работать с API;- применять несколько методов хранения собранных данных;- скачивать, обрабатывать и извлекать данные из документов;- использовать инструменты и методы для очистки плохо отформатированных данных;- читать и записывать естественные языки;- выполнять краулинг с использованием регистрационных форм;- выполнять скрапинг Javascript-кода;- обрабатывать изображения и распознавать текст.Инструменты и примеры, приведенные в этой книге, позволяют легко автоматизировать несколько повторяющихся задач, высвобождая время для решения более насущных проблем. Это легко читаемая, ориентированная на конкретный результат книга, рассказывающая о реальных проблемах и решениях. Содержание книги "Скрапинг веб-сайтов с помощью Python"Предисловие....................................................................................10Вступление.......................................................................................13ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ.........................................20Глава 1. Ваш первый скрапер.......................................................21Соединение с Интернетом................................................................................21Введение в BeautifulSoup..................................................................................24Установка BeautifulSoup...............................................................................24Запуск BeautifulSoup.....................................................................................26Как обеспечить надежный скрапинг........................................................28Глава 2. Продвинутый парсинг HTML..........................................31Вам не всегда нужен молоток..........................................................................31Еще одно применение BeautifulSoup............................................................32find() и findAll()...............................................................................................34Другие объекты BeautifulSoup...................................................................36Навигация по дереву синтаксического разбора...................................37Работа с дочерними элементами и элементами-потомками............38Работа с одноуровневыми элементами...................................................39Работа с родительскими элементами.......................................................40Регулярные выражения.....................................................................................41Регулярные выражения и BeautifulSoup.....................................................46Получение доступа к атрибутам.....................................................................47Лямбда-выражения.............................................................................................48За рамками BeautifulSoup.................................................................................48Глава 3. Запуск краулера................................................................50Обход отдельного домена..................................................................................50Краулинг всего сайта..........................................................................................54Сбор данных по всему сайту............................................................................57Краулинг Интернета...........................................................................................59Краулинг с помощью Scrapy............................................................................65Глава 4. Использование API..........................................................70Как работают API.................................................................................................71Общепринятые соглашения.............................................................................72Методы...............................................................................................................72Аутентификация..............................................................................................73Ответы.....................................................................................................................74Вызовы API.......................................................................................................75Echo Nest.................................................................................................................76Несколько примеров......................................................................................76Twitter.......................................................................................................................78Приступаем к работе......................................................................................78Несколько примеров......................................................................................79Google API..............................................................................................................83Приступаем к работе......................................................................................83Несколько примеров......................................................................................84Парсинг JSON-данных.......................................................................................86Возвращаем все это домой................................................................................88Подробнее о применении API.........................................................................92Глава 5. Хранение данных.............................................................94Медиафайлы..........................................................................................................94Сохранение данных в формате CSV..............................................................97MySQL.....................................................................................................................99Установка MySQL........................................................................................ 100Некоторые основные команды................................................................ 102Интеграция с Python.................................................................................. 106Методы работы с базами данных и эффективная практика......... 109"Шесть шагов" в MySQL.......................................................................... 112Электронная почта........................................................................................... 115Глава 6. Чтение документов........................................................117Кодировка документа...................................................................................... 117Текст....................................................................................................................... 118Кодировка текста и глобальный Интернет......................................... 119CSV........................................................................................................................ 124Чтение CSV-файлов.................................................................................... 124PDF........................................................................................................................ 126Microsoft Word и .docx..................................................................................... 128ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ.....................................132Глава 7. Очистка данных..............................................................133Очистка данных на этапе создания кода................................................... 133Нормализация данных............................................................................... 136Очистка данных постфактум........................................................................ 138OpenRefine...................................................................................................... 139Глава 8. Чтение и запись естественных языков......................144Аннотирование данных................................................................................... 145Марковские модели.......................................................................................... 148Шесть шагов Википедии: заключительная часть............................. 152Natural Language Toolkit................................................................................. 156Установка и настройка............................................................................... 156Статистический анализ с помощью NLTK......................................... 156Лексикографический анализ с помощью NLTK............................... 160Дополнительные ресурсы.............................................................................. 163Глава 9. Краулинг сайтов, использующих веб-формы...........165Библиотека requests......................................................................................... 165Отправка простой формы.............................................................................. 166Радиокнопки, флажки и другие элементы ввода данных................... 168Отправка файлов и изображений................................................................ 170Работа с логинами и cookies.......................................................................... 171Базовая HTTP-аутентификация............................................................ 173Другие проблемы при работе с формами................................................. 174Глава 10. Скрапинг JavaScript-кода............................................175Краткое введение в JavaScript...................................................................... 176Распространенные библиотеки JavaScript.......................................... 177Ajax и динамический HTML......................................................................... 180Выполнение JavaScript в Python с помощью библиотекиSelenium........................................................................................................... 181Обработка редиректов..................................................................................... 186Глава 11. Обработка изображений и распознаваниетекста...............................................................................................189Обзор библиотек............................................................................................... 190Pillow................................................................................................................ 190Tesseract........................................................................................................... 191NumPy.............................................................................................................. 192Обработка хорошо отформатированного текста................................... 193Скрапинг текста с изображений, размещенныхна веб-сайтах.................................................................................................. 196Чтение CAPTCHA и обучение Tesseract.................................................. 198Обучение Теsseract...................................................................................... 200Извлечение CAPTCHA и отправка результатов.распознавания.................................................................................................... 204Глава 12. Обход ловушек в ходе скрапинга..............................208Обратите внимание на этический аспект................................................. 209Учимся выглядеть как человек..................................................................... 210Настройте заголовки................................................................................... 210Обработка cookies........................................................................................ 212Время решает все......................................................................................... 214Общие функции безопасности, используемые веб-формами........... 215Значения полей скрытого ввода............................................................. 215Обходим "горшочки с медом"................................................................. 217Проверяем скрапер на "человечность"..................................................... 219Глава 13. Тестирование вашего сайта с помощьюскраперов........................................................................................221Введение в тестирование................................................................................ 222Что такое модульные тесты?.................................................................... 222Питоновский модуль unittest....................................................................... 223Тестирование Википедии.......................................................................... 224Тестирование с помощью Selenium............................................................. 227Взаимодействие с сайтом.......................................................................... 227Unittest или Selenium?.................................................................................... 231Глава 14. Скрапинг с помощью удаленных серверов............233Зачем использовать удаленные серверы?................................................ 233Как избежать блокировки IP-адреса..................................................... 234Переносимость и расширяемость........................................................... 235Tor........................................................................................................................... 236PySocks............................................................................................................ 237Удаленный хостинг........................................................................................... 238Запуск с аккаунта веб-хостинга.............................................................. 238Запуск из облака.......................................................................................... 240Дополнительные ресурсы.............................................................................. 241Заглянем в будущее.......................................................................................... 242Приложение А. Кратко о том, как работает Python..................244Установка и "Hello, World!".......................................................................... 244Приложение В. Кратко о том, как работает Интернет..............248Приложение С. Правовые и этические аспектывеб-скрапинга.................................................................................252Товарные знаки, авторские права, патенты, о боже!............................. 252Авторское право........................................................................................... 254Посягательство на движимое имущество................................................. 256Закон о компьютерном мошенничестве и злоупотреблении............ 258robots.txt и Пользовательское соглашение.............................................. 259Три нашумевших случая в практикевеб-скрапинга..................................................................................................... 263eBay против Bidder's Edge и посягательство на движимоеимущество....................................................................................................... 263США против Орнхаймера и Закон о компьютерноммошенничестве и злоупотреблении....................................................... 265Филд против Google: авторское правои robots.txt...................................................................................................... 268Об авторе........................................................................................269Колофон..........................................................................................270Предметный указатель.................................................................271[/html]
Technical Details
categoryTitle: | Научная и техническая литература |
rating: | 0 |
Price history chart & currency exchange rate
Customers also viewed
![Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather
Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather](http://img.kwcdn.com/product/fancy/0aa751c1-c4b6-40ce-b2b5-5775169e0ad9.jpg)
-1%
9%
~ 740.00 грн.
Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather
temu.com![Little Girls Dana Ankle High Strappy Round Toe Mary Jane Dress Flats Shoes Python 4
Little Girls Dana Ankle High Strappy Round Toe Mary Jane Dress Flats Shoes Python 4](http://i5.walmartimages.com/asr/9f9c2861-67e5-4512-b452-1bbefa20f530.5b0d3c6353ec442b64392726bdd4ecf4.jpeg?odnHeight=450&odnWidth=450&odnBg=ffffff)
-1%
5%
~ 830.00 грн.
Little Girls Dana Ankle High Strappy Round Toe Mary Jane Dress Flats Shoes Python 4
walmart.com![Pair, Women's Fashion Earrings, Python + + Gothic + Snake + Retro + Hip Hop + Simple + + Fashion, S925 Silver, Banquet, Party, Travel, Daily Gift, Thanksgiving, Halloween, Christmas, Low Allergy
Pair, Women's Fashion Earrings, Python + + Gothic + Snake + Retro + Hip Hop + Simple + + Fashion, S925 Silver, Banquet, Party, Travel, Daily Gift, Thanksgiving, Halloween, Christmas, Low Allergy](http://img.kwcdn.com/product/fancy/343a41d3-ff8a-45ea-9dd6-4cc8567bfb67.jpg)
-1%
4%
~ 335.00 грн.
Pair, Women's Fashion Earrings, Python + + Gothic + Snake + Retro + Hip Hop + Simple + + Fashion, S925 Silver, Banquet, Party, Travel, Daily Gift, Thanksgiving, Halloween, Christmas, Low Allergy
temu.com![Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making](http://img.kwcdn.com/product/open/2024-07-01/1719828732780-9074fd1c90b645a0a7e9a5c8aadc2bef-goods.jpeg)
-1%
1%
~ 384.00 грн.
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
temu.com![Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather
Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather](http://img.kwcdn.com/product/fancy/0aa751c1-c4b6-40ce-b2b5-5775169e0ad9.jpg)
-1%
1%
~ 980.00 грн.
Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather
temu.com![Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making](http://img.kwcdn.com/product/open/2024-07-01/1719828732780-9074fd1c90b645a0a7e9a5c8aadc2bef-goods.jpeg)
-1%
1%
~ 372.00 грн.
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
temu.com![Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making](http://img.kwcdn.com/product/open/2024-07-01/1719828732780-9074fd1c90b645a0a7e9a5c8aadc2bef-goods.jpeg)
-1%
1%
~ 478.00 грн.
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
temu.com![Toddler s Jordan 2 Retro Python White/Fire Red-Black-Sail (DQ8563 102) - 4
Toddler s Jordan 2 Retro Python White/Fire Red-Black-Sail (DQ8563 102) - 4](http://i5.walmartimages.com/asr/1cfe854d-1f8a-44e3-93d8-9f112d04c134.087a68bb096a77014d81aedd695b1086.jpeg?odnHeight=450&odnWidth=450&odnBg=ffffff)
-1%
1%
~ 2,120.00 грн.
Toddler s Jordan 2 Retro Python White/Fire Red-Black-Sail (DQ8563 102) - 4
walmart.com![Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather
Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather](http://img.kwcdn.com/product/fancy/0aa751c1-c4b6-40ce-b2b5-5775169e0ad9.jpg)
-1%
1%
~ 760.00 грн.
Chic Gradient Python Pattern Bucket Bag For Women - Spacious Multi-pocket Crossbody With Adjustable Strap, Lightweight Leather
temu.com![Learn Python By Reading Comics: Interesting, Informative, Fun, And Useful (full-color Revised Edition), Chinese Version
Learn Python By Reading Comics: Interesting, Informative, Fun, And Useful (full-color Revised Edition), Chinese Version](http://img.kwcdn.com/product/open/2024-07-12/1720796760302-8493075d800a4417827c0c33a96cc68a-goods.jpeg)
-1%
1%
~ 760.00 грн.
Learn Python By Reading Comics: Interesting, Informative, Fun, And Useful (full-color Revised Edition), Chinese Version
temu.com![Sac Seau Chic à Motif Python Dégradé pour Femme - Sac Bandoulière Spacieux à Multipoches avec Sangle Ajustable, en Similicuir Léger
Sac Seau Chic à Motif Python Dégradé pour Femme - Sac Bandoulière Spacieux à Multipoches avec Sangle Ajustable, en Similicuir Léger](http://img.kwcdn.com/product/fancy/0aa751c1-c4b6-40ce-b2b5-5775169e0ad9.jpg)
-1%
1%
~ 695.00 грн.
Sac Seau Chic à Motif Python Dégradé pour Femme - Sac Bandoulière Spacieux à Multipoches avec Sangle Ajustable, en Similicuir Léger
temu.com![Pair, Women's Fashion Earrings, Python + + Gothic + Snake + Retro + Hip Hop + Simple + + Fashion, S925 Silver, Banquet, Party, Travel, Daily Gift, Thanksgiving, Halloween, Christmas, Low Allergy
Pair, Women's Fashion Earrings, Python + + Gothic + Snake + Retro + Hip Hop + Simple + + Fashion, S925 Silver, Banquet, Party, Travel, Daily Gift, Thanksgiving, Halloween, Christmas, Low Allergy](http://img.kwcdn.com/product/fancy/343a41d3-ff8a-45ea-9dd6-4cc8567bfb67.jpg)
-1%
1%
~ 341.00 грн.
Pair, Women's Fashion Earrings, Python + + Gothic + Snake + Retro + Hip Hop + Simple + + Fashion, S925 Silver, Banquet, Party, Travel, Daily Gift, Thanksgiving, Halloween, Christmas, Low Allergy
temu.com![Soda Flat Women Shoes Slip On Loafers Casual Sneakers Memory Foam REIGN-G White Sole Yellow Mustard Python 7.5
Soda Flat Women Shoes Slip On Loafers Casual Sneakers Memory Foam REIGN-G White Sole Yellow Mustard Python 7.5](http://i5.walmartimages.com/asr/27ccc8bc-494f-46e6-adba-a52243f3bd18_1.56e7515935eca19f36e8495da5998d0b.jpeg?odnHeight=450&odnWidth=450&odnBg=ffffff)
-1%
1%
~ 1,410.00 грн.
Soda Flat Women Shoes Slip On Loafers Casual Sneakers Memory Foam REIGN-G White Sole Yellow Mustard Python 7.5
walmart.com![Rouleau de tissu en simili cuir Python Snake, 32x135cm Vinyle texturé souple pour la tapisserie, l'artisanat de bricolage et la fabrication de boucles d'oreilles
Rouleau de tissu en simili cuir Python Snake, 32x135cm Vinyle texturé souple pour la tapisserie, l'artisanat de bricolage et la fabrication de boucles d'oreilles](http://img.kwcdn.com/product/open/2024-07-01/1719828732780-9074fd1c90b645a0a7e9a5c8aadc2bef-goods.jpeg)
-1%
1%
~ 450.00 грн.
Rouleau de tissu en simili cuir Python Snake, 32x135cm Vinyle texturé souple pour la tapisserie, l'artisanat de bricolage et la fabrication de boucles d'oreilles
temu.com![Inktastic Pi-thon Pi Day Python Pun Snake Boys or Girls Toddler T-Shirt
Inktastic Pi-thon Pi Day Python Pun Snake Boys or Girls Toddler T-Shirt](http://i5.walmartimages.com/asr/2b882c6d-821f-4cbb-ae69-aeb9aaca0a15.8dde8a565dc7002e8ff7bcf2d5287820.jpeg?odnHeight=450&odnWidth=450&odnBg=ffffff)
+2%
1%
~ 620.00 грн.
Inktastic Pi-thon Pi Day Python Pun Snake Boys or Girls Toddler T-Shirt
walmart.com![Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making](http://img.kwcdn.com/product/open/2024-07-01/1719828732780-9074fd1c90b645a0a7e9a5c8aadc2bef-goods.jpeg)
-1%
1%
~ 359.00 грн.
Python Snake Print Faux Leather Fabric Roll, 32x135cm Soft Textured Vinyl For Upholstery, Diy Crafts, And Earring Making
temu.com![4pc Cat Sound Toy, Python Shape, Built-, Contains Catnip, Skin-friendly Plush Fabric
4pc Cat Sound Toy, Python Shape, Built-, Contains Catnip, Skin-friendly Plush Fabric](http://img.kwcdn.com/product/fancy/76962045-d73c-47d2-903e-b51a3ae8a796.jpg)
-1%
1%
~ 345.00 грн.
4pc Cat Sound Toy, Python Shape, Built-, Contains Catnip, Skin-friendly Plush Fabric
temu.com