Сборник рецептов #2: собираем форумы для XRumer, парсим email со страниц контактов

Тема в разделе "Новости", создана пользователем Forbidden, 6 ноя 2014.

  1. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.093
    Симпатии:
    1.639
    Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга

    Парсим базу для XRumer: 420000 форумов за 9 часов

    Учимся быстро собирать большие базы методом перебора

    [​IMG]

    За 9 часов работы:
    • Было обработано 525254 запроса на максимальную глубину
    • Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену
    • Средняя скорость парсинга составила 1000 запросов в минуту
    Собираем 1.65 миллиона email со страниц контактов за 2.5 часа

    Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса

    [​IMG]

    • Средняя скорость обработки составила 12000 ссылок в минуту
    • ТОП-10 почтовых доменов:
    Код:
    249772 mail.ru
    129894 gmail.com
    91901 yandex.ru
    25625 rambler.ru
    20821 bk.ru
    19773 hotmail.com
    14656 yahoo.com
    14117 list.ru
    13636 inbox.ru
    11670 ukr.net
    

    Сбор перелинкованных топиков

    Метод описывает как используя возможности парсера HTML::LinkExtractor HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer

    Алгоритм работы:
    • Переходим только по внешним ссылкам
    • Фильтруем ссылки для перехода по признакам форумов
    • Добавляем уникализацию по домену
    • Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся

    Парсинг форумов по признакам и запросам

    Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену

    Предыдущие рецепты:
     
    List, vladan, limoshkaa и ещё 1-му нравится это.

Поделиться этой страницей