Использование нескольких парсеров в одном задании

6 авг 2015
  • A-Parser поддерживает обработку запросов сразу несколькими парсерами, что позволяет:
    • Парсить выдачу сразу нескольких поисковых систем
    • Анализировать домены по множеству параметров
    • Одновременно собирать ключевые слова из подсказок разных поисковых систем и Яндекс.Вордстата
    • Собирать Whois и DNS информацию для доменов
    • Множество других вариантов применения
    Для добавления нового парсера достаточно кликнуть по кнопке Добавить парсер в Редакторе заданий:
    [​IMG]
    Каждый парсер пронумерован, результаты по каждому парсеру в конструкторе результатов и при форматировании результатов доступны через сокращения $p1, $p2... где число обозначает номер парсера. В общем формате результата по умолчанию выводятся последовательно результаты по каждому парсеру, в формате указанном в настройках каждого парсера
    Использование нескольких парсеров в одном задании увеличивает общую скорость парсинга за счет того что количество одновременных запросов к одному парсеру уменьшается, соответственно реже наступает бан прокси или показ каптчи
    Каждый парсер парсит исходный запрос или его вариацию при использовании конструктора запросов, имеет в настройках свой формат запроса, однако, нельзя передавать в качестве запросов одному парсеру результаты работы предыдущего парсера(данная возможность запланирована в будущем)
    Пример анализа доменов по нескольким параметрам
    [​IMG]
    В данном примере мы используем в качестве запросов список доменов, которые в скором времени проэкспайрятся(вновь станут доступны для регистрации), нас интересует выбрать жирные домены(домены с хорошими параметрами), для этого мы воспользовались 8ую разными парсерами:
    • SE::Google::pR SE::Google::pR - узнаем PageRank домена
    • SE::Google SE::Google - запрос в Гугл в формате site:$query, узнаем количество проиндексированных страниц
    • SE::Google::TrustCheck SE::Google::TrustCheck - узнаем насколько Гугл доверяет сайту
    • Rank::DMOZ Rank::DMOZ - проверяем наличие сайта в каталоге DMOZ
    • SE::Bing::LangDetect SE::Bing::LangDetect - узнаем язык сайта
    • SE::Google::SafeBrowsing SE::Google::SafeBrowsing - узнаем не помечен ли сайт как небезопасный
    • SE::Google SE::Google - запрос в Гугл в формате "$query", узнаем количество упоминаний домена
    • Rank::Ahrefs Rank::Ahrefs - узнаем количество беклинков ведущих на домен через сервис Ahrefs
    В формате результатов мы выводим исходный запрос(домен) и результаты от каждого парсера, в нужном нам порядке