Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга
Парсим базу для XRumer: 420000 форумов за 9 часов
Учимся быстро собирать большие базы методом перебора
За 9 часов работы:
Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса
Сбор перелинкованных топиков
Метод описывает как используя возможности парсера
HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer
Алгоритм работы:
Парсинг форумов по признакам и запросам
Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену
Предыдущие рецепты:
Парсим базу для XRumer: 420000 форумов за 9 часов
Учимся быстро собирать большие базы методом перебора
За 9 часов работы:
- Было обработано 525254 запроса на максимальную глубину
- Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
- Средняя скорость парсинга составила 1000 запросов в минуту
Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса
- Средняя скорость обработки составила 12000 ссылок в минуту
- ТОП-10 почтовых доменов:
Код:
249772 mail.ru
129894 gmail.com
91901 yandex.ru
25625 rambler.ru
20821 bk.ru
19773 hotmail.com
14656 yahoo.com
14117 list.ru
13636 inbox.ru
11670 ukr.net
Сбор перелинкованных топиков
Метод описывает как используя возможности парсера
HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumerАлгоритм работы:
- Переходим только по внешним ссылкам
- Фильтруем ссылки для перехода по признакам форумов
- Добавляем уникализацию по домену
- Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся
Парсинг форумов по признакам и запросам
Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену
Предыдущие рецепты: