Этот пост продолжает серию статей с рецептами применения A-Parser: комплексные примеры с одновременным использованием различного функционала парсера. Помимо детального разбора заданий можно также оценить скорость обработки запросов и скачать результаты парсинга Парсим базу для XRumer: 420000 форумов за 9 часов Учимся быстро собирать большие базы методом перебора За 9 часов работы: Было обработано 525254 запроса на максимальную глубину Спаршено 68 миллионов ссылок, 420к из которых подходят под фильтр и уникальны по домену Средняя скорость парсинга составила 1000 запросов в минуту Собираем 1.65 миллиона email со страниц контактов за 2.5 часа Парсим ссылки на страницы с контактными данными, затем собираем с них email-адреса Средняя скорость обработки составила 12000 ссылок в минуту ТОП-10 почтовых доменов: Код: 249772 mail.ru 129894 gmail.com 91901 yandex.ru 25625 rambler.ru 20821 bk.ru 19773 hotmail.com 14656 yahoo.com 14117 list.ru 13636 inbox.ru 11670 ukr.net Сбор перелинкованных топиков Метод описывает как используя возможности парсера HTML::LinkExtractor собирать ссылки на перелинкованные топики - еще один хороший метод сбора баз форумов для XRumer Алгоритм работы: Переходим только по внешним ссылкам Фильтруем ссылки для перехода по признакам форумов Добавляем уникализацию по домену Сохраняем ссылки по которым переходим, тем самым собираем все ссылки на новые форумы которые встретятся Парсинг форумов по признакам и запросам Классический вариант сбора форумов - используя признаки движков и подставляя дополнительные кейворды. Ссылки дополнительно фильтруются по регулярному выражению и проходят уникализацию по домену Предыдущие рецепты: Сборник рецептов #1: Определяем CMS, оцениваем частотность ключевых слов и парсим Вконтакте