Скрапинг веб-сайтов с помощью Python

sku: 94229720
ACCORDING TO OUR RECORDS THIS PRODUCT IS NOT AVAILABLE NOW
909.00 грн.
Shipping from: Ukraine
Description
[html]В книге "Скрапинг веб-сайтов с помощью Python" вы изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие, как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике.Прочитав книгу "Скрапинг веб-сайтов с помощью Python", вы научитесь:- выполнять парсинг сложных HTML страниц;- сканировать веб-страницы и сайты;- работать с API;- применять несколько методов хранения собранных данных;- скачивать, обрабатывать и извлекать данные из документов;- использовать инструменты и методы для очистки плохо отформатированных данных;- читать и записывать естественные языки;- выполнять краулинг с использованием регистрационных форм;- выполнять скрапинг Javascript-кода;- обрабатывать изображения и распознавать текст.Инструменты и примеры, приведенные в этой книге, позволяют легко автоматизировать несколько повторяющихся задач, высвобождая время для решения более насущных проблем. Это легко читаемая, ориентированная на конкретный результат книга, рассказывающая о реальных проблемах и решениях. Содержание книги "Скрапинг веб-сайтов с помощью Python"Предисловие....................................................................................10Вступление.......................................................................................13ЧАСТЬ I. ПОСТРОЕНИЕ СКРАПЕРОВ.........................................20Глава 1. Ваш первый скрапер.......................................................21Соединение с Интернетом................................................................................21Введение в BeautifulSoup..................................................................................24Установка BeautifulSoup...............................................................................24Запуск BeautifulSoup.....................................................................................26Как обеспечить надежный скрапинг........................................................28Глава 2. Продвинутый парсинг HTML..........................................31Вам не всегда нужен молоток..........................................................................31Еще одно применение BeautifulSoup............................................................32find() и findAll()...............................................................................................34Другие объекты BeautifulSoup...................................................................36Навигация по дереву синтаксического разбора...................................37Работа с дочерними элементами и элементами-потомками............38Работа с одноуровневыми элементами...................................................39Работа с родительскими элементами.......................................................40Регулярные выражения.....................................................................................41Регулярные выражения и BeautifulSoup.....................................................46Получение доступа к атрибутам.....................................................................47Лямбда-выражения.............................................................................................48За рамками BeautifulSoup.................................................................................48Глава 3. Запуск краулера................................................................50Обход отдельного домена..................................................................................50Краулинг всего сайта..........................................................................................54Сбор данных по всему сайту............................................................................57Краулинг Интернета...........................................................................................59Краулинг с помощью Scrapy............................................................................65Глава 4. Использование API..........................................................70Как работают API.................................................................................................71Общепринятые соглашения.............................................................................72Методы...............................................................................................................72Аутентификация..............................................................................................73Ответы.....................................................................................................................74Вызовы API.......................................................................................................75Echo Nest.................................................................................................................76Несколько примеров......................................................................................76Twitter.......................................................................................................................78Приступаем к работе......................................................................................78Несколько примеров......................................................................................79Google API..............................................................................................................83Приступаем к работе......................................................................................83Несколько примеров......................................................................................84Парсинг JSON-данных.......................................................................................86Возвращаем все это домой................................................................................88Подробнее о применении API.........................................................................92Глава 5. Хранение данных.............................................................94Медиафайлы..........................................................................................................94Сохранение данных в формате CSV..............................................................97MySQL.....................................................................................................................99Установка MySQL........................................................................................ 100Некоторые основные команды................................................................ 102Интеграция с Python.................................................................................. 106Методы работы с базами данных и эффективная практика......... 109"Шесть шагов" в MySQL.......................................................................... 112Электронная почта........................................................................................... 115Глава 6. Чтение документов........................................................117Кодировка документа...................................................................................... 117Текст....................................................................................................................... 118Кодировка текста и глобальный Интернет......................................... 119CSV........................................................................................................................ 124Чтение CSV-файлов.................................................................................... 124PDF........................................................................................................................ 126Microsoft Word и .docx..................................................................................... 128ЧАСТЬ II. ПРОДВИНУТЫЙ СКРАПИНГ.....................................132Глава 7. Очистка данных..............................................................133Очистка данных на этапе создания кода................................................... 133Нормализация данных............................................................................... 136Очистка данных постфактум........................................................................ 138OpenRefine...................................................................................................... 139Глава 8. Чтение и запись естественных языков......................144Аннотирование данных................................................................................... 145Марковские модели.......................................................................................... 148Шесть шагов Википедии: заключительная часть............................. 152Natural Language Toolkit................................................................................. 156Установка и настройка............................................................................... 156Статистический анализ с помощью NLTK......................................... 156Лексикографический анализ с помощью NLTK............................... 160Дополнительные ресурсы.............................................................................. 163Глава 9. Краулинг сайтов, использующих веб-формы...........165Библиотека requests......................................................................................... 165Отправка простой формы.............................................................................. 166Радиокнопки, флажки и другие элементы ввода данных................... 168Отправка файлов и изображений................................................................ 170Работа с логинами и cookies.......................................................................... 171Базовая HTTP-аутентификация............................................................ 173Другие проблемы при работе с формами................................................. 174Глава 10. Скрапинг JavaScript-кода............................................175Краткое введение в JavaScript...................................................................... 176Распространенные библиотеки JavaScript.......................................... 177Ajax и динамический HTML......................................................................... 180Выполнение JavaScript в Python с помощью библиотекиSelenium........................................................................................................... 181Обработка редиректов..................................................................................... 186Глава 11. Обработка изображений и распознаваниетекста...............................................................................................189Обзор библиотек............................................................................................... 190Pillow................................................................................................................ 190Tesseract........................................................................................................... 191NumPy.............................................................................................................. 192Обработка хорошо отформатированного текста................................... 193Скрапинг текста с изображений, размещенныхна веб-сайтах.................................................................................................. 196Чтение CAPTCHA и обучение Tesseract.................................................. 198Обучение Теsseract...................................................................................... 200Извлечение CAPTCHA и отправка результатов.распознавания.................................................................................................... 204Глава 12. Обход ловушек в ходе скрапинга..............................208Обратите внимание на этический аспект................................................. 209Учимся выглядеть как человек..................................................................... 210Настройте заголовки................................................................................... 210Обработка cookies........................................................................................ 212Время решает все......................................................................................... 214Общие функции безопасности, используемые веб-формами........... 215Значения полей скрытого ввода............................................................. 215Обходим "горшочки с медом"................................................................. 217Проверяем скрапер на "человечность"..................................................... 219Глава 13. Тестирование вашего сайта с помощьюскраперов........................................................................................221Введение в тестирование................................................................................ 222Что такое модульные тесты?.................................................................... 222Питоновский модуль unittest....................................................................... 223Тестирование Википедии.......................................................................... 224Тестирование с помощью Selenium............................................................. 227Взаимодействие с сайтом.......................................................................... 227Unittest или Selenium?.................................................................................... 231Глава 14. Скрапинг с помощью удаленных серверов............233Зачем использовать удаленные серверы?................................................ 233Как избежать блокировки IP-адреса..................................................... 234Переносимость и расширяемость........................................................... 235Tor........................................................................................................................... 236PySocks............................................................................................................ 237Удаленный хостинг........................................................................................... 238Запуск с аккаунта веб-хостинга.............................................................. 238Запуск из облака.......................................................................................... 240Дополнительные ресурсы.............................................................................. 241Заглянем в будущее.......................................................................................... 242Приложение А. Кратко о том, как работает Python..................244Установка и "Hello, World!".......................................................................... 244Приложение В. Кратко о том, как работает Интернет..............248Приложение С. Правовые и этические аспектывеб-скрапинга.................................................................................252Товарные знаки, авторские права, патенты, о боже!............................. 252Авторское право........................................................................................... 254Посягательство на движимое имущество................................................. 256Закон о компьютерном мошенничестве и злоупотреблении............ 258robots.txt и Пользовательское соглашение.............................................. 259Три нашумевших случая в практикевеб-скрапинга..................................................................................................... 263eBay против Bidder's Edge и посягательство на движимоеимущество....................................................................................................... 263США против Орнхаймера и Закон о компьютерноммошенничестве и злоупотреблении....................................................... 265Филд против Google: авторское правои robots.txt...................................................................................................... 268Об авторе........................................................................................269Колофон..........................................................................................270Предметный указатель.................................................................271[/html]
Technical Details
categoryTitle: | Научная и техническая литература |
rating: | 0 |
Price history chart & currency exchange rate
Customers also viewed

1,215.11 грн.
Men s Fair Isle Jacquard Cardigan - National Tide Brand, Autumn/Winter 2025, Loose Fit Knitwear for Couples M
joom.com
211.41 грн.
Пленка для ламинирования Cactus 60мкм A4 (100шт) глянцевая 216x303мм CS-LPGA460100
oldi.ru
184.99 грн.
Bulbs High-altitude Light Replacement Pole Changer for Recessed Lights Portable Ceilings LED Lightbulb
aliexpress.com
2,810.66 грн.
Retro 3-Light Farmhouse Chandelier Rustic Ceiling Light Pendant Lamp Fixture with Dustproof Shade for Home Bar Cafe Restaurant
aliexpress.com
1,542.53 грн.
1~8PCS Led Headlight Bulb Kit Mini 90 6000K 12000LM 12-32V White Super Bright Fog Light Headlight Lamps Car Light
aliexpress.com
383.57 грн.
Fashion Coat Of Arms Of Uruguay Baseball Cap Men Women Personalized Adjustable Unisex Dad Hat Spring
aliexpress.com
392.64 грн.
9Pcs Anime Genshin Impact Beelzebul Ganyu Jean Gunnhildr Black Stockings Underwear Diy Acg Collection Card Anime Peripheral Gift
aliexpress.com
199.82 грн.
Алюминиевая настенная лампа, 5 Вт, 10 Вт, стандартная водонепроницаемая внешняя настенная лампа IP65, настенное бра для балкона, сада, декоративная лампа, 110 В, 220 В переменного тока
aliexpress.com
135.14 грн.
Женский купальник, бикини на завязках, летние Прозрачные Пляжные шорты, сетчатые
aliexpress.com
2,129.22 грн.
Original BANDAI S.H.Figuarts Damian Desmond SPY×FAMILY School Dress Anime Action Figure Toys SHF Kwaii Q Version PVC Model Gift
aliexpress.com
2,105.32 грн.
PreCut Rocker Panels Paint Protection Clear Bra Guard Kit TPU PPF For BMW X3 XDRIVE35I E28I M-SPORT 2011-2014
aliexpress.com
88,732.44 грн.
Italian style light luxury leather bed large apartment master bedroom wedding bed double bed 1.8 meters large bed customization
aliexpress.com
489.87 грн.
Harajuku Lolita Knee Socks for Girls, Thin Leg, Black, Sweet, Cute, Pink, Y2K, Bone Bow, Streetwear, Hot, New
aliexpress.com
952.54 грн.
Сумка-тоут, сумка на плечо, сумки для женщин, сумки через плечо, Холщовая Сумка, вместительная ручная сумка для покупок
aliexpress.com
1,394.62 грн.
MVA Vintage Men Wallet Coin Pocket Genuine Leather Wallets For Men Wallets Small Zipper Wallet With Card Holder Man Purse 7313
aliexpress.com
1,082.74 грн.
STEERING TIE-ROD for CF 500 188 800 X5 X8 ATV UTV PARTS 9010-100530 9010-100530-1000 QUAD GO KART
aliexpress.com
488.63 грн.
GKK Original Armor Case For Samsung Galaxy Z Fold 3 5G Case Ring Stand Shockproof Protection Cover For Samsung Z Fold 3 Fundas
aliexpress.com
421.06 грн.
Follow The Picture Watercolor painting book for Fresh Sen series from Introduction to master
aliexpress.com
137.61 грн.
Установка для автомобиля S/M/L/XL, выхлопная труба, турбо звуковой свисток, автомобильный глушитель, универсальный звуковой симулятор автомобиля, турбо звуковой свисток
aliexpress.com
68.80 грн.
Engineering Operation Process Toy Engage Child's Imagination with Interactive Construction Vehicle Toys Storytelling Education
aliexpress.com
366.27 грн.
Прочный высококачественный практичный садовый Рождественский венок, праздничные украшения, сосновые конусы, красные металлические шары
aliexpress.com
3,549.38 грн.
Car LED DRL LED Fog Lamp Cover Daytime Running Lights With Yellow Turn Signal Day Light Headlights For Kia RIO 2022 2023
aliexpress.com
2,418.85 грн.
New Motorcycle Jacket For Men In Autumn/Winter Fashion Casual Leather Embroidered Aviator Jacket In Winter Velvet Pu Jacke
aliexpress.com
1,051.01 грн.
Big Loose Patchwork Sleeve Shirt Women Turn Down Collar Long Blouse Casual Thin Outfit
aliexpress.com
1,412.75 грн.
Suction Cup Car Phone Holder Professional Shooting Video Phone Metal Holder for IPhone Xiaomi Selfie Stick 360° Rotation Holder
aliexpress.com
506.35 грн.
Пластиковая Задняя Крышка 2013-2016 для левой и передней противотуманной фары, аксессуары для 1 шт., абсолютно новые высококачественные профессиональные аксессуары для горячей распродажи
aliexpress.ru
697.52 грн.
300 шт. M6 x 15 мм гайка для мебели резьбовые деревянные вставки болт крепежный разъем шестигранный гнездовой привод
aliexpress.ru
288.40 грн.
98Pcs Plim Clown Arch Garland Kit Aluminum Foil Balloon Latex Balloon Baby Shower Birthday Party Baby Boys Girls Children's Toy
aliexpress.ru
2,027.45 грн.
men #53 ryan parris alabama crimson tide red black white college jersey or custom any name or number jersey, Black;red
dhgate.com
5,479.60 грн.
HD-R501 Huidu led display receiving card for rgb led outdoor p5 p6 p8 p10
aliexpress.com
814.94 грн.
SAIREN Decent Mic I On Camera Microphone 3.5mm Super Cardioid 360 Mini Microphone for Phone DSLRs Action Cameras Directly VLOG
aliexpress.ru
99,975.95 грн.
Подвесная люстра Bohemia Ivele 1702/6+6/335+150/A/NB, 1702/6+6/335+150/A/NB
santprice.ru
1,153.19 грн.
2020 LIGE New Fashion Mens Watches with Stainless Steel Top Brand Luxury Sports Chronograph Quartz Watch Men Relogio Masculino
aliexpress.com