Оrлавление:
Введение
I. РАЗРАБОТКА ВЕБ-СКРАПЕРОВ
Как работает Интернет.
Законность и этичность веб-скрапинга.
Применение веб-скрапинга.
Ваш первый веб-скрапер.
Углубленный парсинг HTML.
Разработка веб-краулеров.
Модели веб-краулинга.
Scraру.
Хранение данных.
II. УГЛУБЛЕННЫЙ ВЕБ-СКРАПИНГ
Чтение документов.
Обработка «грязных» данных.
Чтение и запись текстов на естественных языках.
Краулингформ и авторизация.
Веб-скрапинг данных JavaScript.
Краулинг с помощью API.
Обработка изображений и распознавание текста.
Как избежать ловушек веб-скрапинга.
Тестирование сайтов с помощью веб-скраперов.
Параллельный веб-скрапинг.
Прокси-сервисы для веб-скрапинга.
Об авторе.
Райан Митчелл пишет книги о веб-скрапинге и науке о данных с 2013 года. У нее есть шесть учебных курсов на Linkedln, включая «Веб-скрапинг с помощью Python~ и «Основы Python~ - в настоящее время самый популярный курс по языку Python из представленных на платформе. Как эксперт в области веб-скрапинга, безопасности приложений и анализа данных, Райан проводила семинары и выступала на многих мероприятиях, включая Data Day и DEF CON. Райан получила степень магистра в области разработки программного обеспечения в Школе повышения квалификации Гарвардского университета и степень бакалавра технических наук в Инженерном колледже Олина. В настоящее время работает главным инженером-программистом в Gerson Lehrrnan Group, где занимается машинным обучением и обработкой данных на Python. Она регулярно консультирует проекты веб-скрапинга в сферах розничной торговли, финансов и фармацевтики и некоторое время работала консультантом по учебным программам и внештатным преподавателем в Северо-Восточном университете и Инженерном колледже Олина.
На ресурсе Клуба имеется одноимённая книга второго издания
Райан Митчелл | Cовременный скрапинг веб-сайтов с помощью Python, 2-е международное издание (2021) [PDF]