Также для этих парсеров добавлена настройка Remove bad accounts, которая автоматически удаляет аккаунты с неверным логин/паролем или требующие подтверждения по телефону. Опция включена по умолчанию
Добавлен новый парсер картинок SE::Yandex::Images, поддерживает все фильтры(размер, ориентация, тип, цвет, тип файла...). Как известно Яндекс отлично индексирует все картинки для взрослых - отличный способ набрать контента для своих доров/тюбов. В дополнении есть возможность выставить безопасный поиск
Парсер Яндекс картинок также поддерживает работу с антигейтом(anti-captcha, rucaptcha, CapMonster - любой сервис с поддержкой API антигейта)
После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту
Улучшения
Переработан парсер SE::Google - увеличена скорость парсинга в 10-20 раз
Названия пресетов заданий теперь сортируются при добавлении
Исправления
SE::Google - исправлена обработка каптчи в связи с изменением выдачи
Net::Whois - исправлена работа с некоторыми зонами
14-й выпуск Сборника рецептов. Сегодня мы научимся делать кастомные парсеры с помощью XPath, будем анализировать страницы сайта и попробуем делать комбинированные пресеты. Кроме этого ниже обновление 2-х самых популярных пресетов и небольшой сюрприз Поехали!
Быстрое создание кастомного парсера поисковой системы с помощью XPath
В A-Parser есть парсеры для большинства популярных поисковых систем. Но реализовать и поддерживать парсеры для абсолютно всех существующих поисковиков очень сложно, поэтому нам на помощь приходит Net::HTTP с его замечательной возможностью парсить практически все. В данной статье речь пойдет о том, как с помощью XPath и Net::HTTP довольно быстро и легко создать кастомный парсер почти любой поисковой системы. Подробности -...