Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Forbidden

Administrator
Команда форума
A-Parser Enterprise
Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

Парсим базу для XRumer: 420000 форумов за 9 часов

Учимся быстро собирать большие базы методом перебора

p7pOr.png


За 9 часов работы:
  • Было обработано 525254 запроса на максимальную глубину
  • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
  • Средняя скорость парсинга составила 1000 запросов в минуту
Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса

JVdOG.png


  • Средняя скорость обработки составила 12000 ссылок в минуту
  • ТОП-10 почтовых доменов:
Код:
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net


Сбор перелинкованных топиков

Метод описывает как используя возможности парсера HTML::LinkExtractor HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer

Алгоритм работы:
  • Переходим только по внешним ссылкам
  • Фильтруем ссылки для перехода по признакам форумов
  • Добавляем уникализацию по домену
  • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся

Парсинг форумов по признакам и запросам

Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

Предыдущие рецепты:
 
Назад
Верх