После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту
Улучшения
Переработан парсер SE::Google - увеличена скорость парсинга в 10-20 раз
Названия пресетов заданий теперь сортируются при добавлении
Исправления
SE::Google - исправлена обработка каптчи в связи с изменением выдачи
Net::Whois - исправлена работа с некоторыми зонами
14-й выпуск Сборника рецептов. Сегодня мы научимся делать кастомные парсеры с помощью XPath, будем анализировать страницы сайта и попробуем делать комбинированные пресеты. Кроме этого ниже обновление 2-х самых популярных пресетов и небольшой сюрприз Поехали!
Быстрое создание кастомного парсера поисковой системы с помощью XPath
В A-Parser есть парсеры для большинства популярных поисковых систем. Но реализовать и поддерживать парсеры для абсолютно всех существующих поисковиков очень сложно, поэтому нам на помощь приходит Net::HTTP с его замечательной возможностью парсить практически все. В данной статье речь пойдет о том, как с помощью XPath и Net::HTTP довольно быстро и легко создать кастомный парсер почти любой поисковой системы. Подробности -...
Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.
В уроке рассмотрены
Использование XPath для создания кастомного парсера
Обход капчи без использования Antigate
Использование Template toolkit для форматирования результата
Объединение результатов парсинга в массив объектов с полями, связанными по индексу
Теперь для парсеров Net::HTTP, HTML::TextExtractor, HTML::LinkExtractor, Rank::CMS кэшируются одинаковые HTTP запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
В парсере HTML::TextExtractor улучшено отображение табличных данных и списков
В парсере SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
В парсере SE::Yandex добавлена опция Parse all results позволяющая автоматически...