Перейти к основному содержимому

SE::Rambler - парсер поисковой выдачи Рамблера

img

Обзор парсера Yahoo

Парсер поисковой выдачи Рамблер. Благодаря парсеру Рамблер вы сможете получать большие базы ссылок, готовых для дальнейшего использования. Вы можете использовать запросы в том же виде, в котором вы вводите их в поисковую строку Рамблер, включая поисковые операторы(site, ip и т.д.).

Функционал A-Parser позволяет сохранять настройки парсинга парсера Рамблер для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Список собираемых данных

  • Ссылки, анкоры и сниппеты из выдачи
  • Список связанных ключевых слов (hints)

какие данные собирает парсер SE::Rambler

Возможности

  • Поддержка поисковых операторов Рамблера(url:, site:, inurl:, host:, rhost:, domain:.)
  • Парсит до 50 страниц, по 50 результатов на странице
  • Парсит связанные ключевые слова($hints)

Варианты использования

  • Сбор баз ссылок.
  • Оценка конкуренции для ключевых слов.
  • Поиск беклинков(упоминаний) сайтов.
  • Все случаи, когда нужно спарсить Рамблер.

Примеры запросов

  • Указывайте запросы так же, как в поиске Рамблера. Допустим, нужны только ссылки с одного сайта, без анкоров и сниппетов. Вводим:
"купить двери"  
site:http://kp.ru

Подстановки запросов

Вы можете использовать встроенные макросы для разможения запросов, например мы хотим получить очень большую базу форумов, укажем несколько основных запросов на разных языках:

forum
форум
foro
论坛

В формате запросов укажем перебор символов от a до zzzz, данный метод позволяет максимально ротировать поисковую выдачу и получать множество новых уникальных результатов:

$query {az:a:zzzz}

Данный макрос создаст 475254 дополнительных запросов на каждый исходный поисковый запрос, что в сумме даст 4 х 475254 = 1901016 поисковых запроса, цифра впечатляющая, но это совсем не проблема для A-Parser'а. При скорости 2000 запросов в минуту такое задание обработается всего за 16 часов

Использование операторов

Вы можете использовать поисковые операторы в формате запроса, таким образом он будет автоматически добавлен к каждому запросу из вашего списка:

site:$query

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Экспорт списка ссылок

Аналогично как в SE::Google.

Ссылки + анкоры + сниппеты с выводом позиции

Аналогично как в SE::Google.

Вывод ссылок, анкоров и сниппетов в таблицу CSV

Аналогично как в SE::Google.

Сохранение связанных ключевых слов

Формат результата:

$hints.format('$hint\n')

Пример результата:

habrahabr
habr
habrahabr ru
xabra
livebusiness
эврика
электронный бухгалтер
остров эльба
эльба электронный бухгалтер
хаброхабр
...

Сохранение в формате SQL

Аналогично как в SE::Google.

Дамп результатов в JSON

Аналогично как в SE::Google.

Обработка результатов

A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Rambler

Уникализация ссылок

Аналогично как в SE::Google.

Уникализация ссылок по домену

Аналогично как в SE::Google.

Извлечение доменов

Аналогично как в SE::Google.

Удаление тегов из анкоров и сниппетов

Аналогично как в SE::Google.

Фильтрация ссылок по вхождению

Аналогично как в SE::Google.

Возможные настройки

Название параметраЗначение по умолчаниюОписание
Pages count5Количество страниц для парсинга(от 1 до 50)
Search settings - sortSites by relevanceСортировка сайтов страниц. По релевантности или по дате(Sites by relevance / Pages by relevance / Sites by date / Pages by date)
Search settings - results per page10Количество результатов на странице(10 / 15 / 30 / 50)
Search settings - page filteringModerate filterНастройки фильтра результатов. Родительский контроль, средний контроль, все результаты(Moderate filter / Unrestricted / Family search)
Search settings - languageРусскийВыбор языка поиска(Русский / English)
AntiGate presetDefaultПресет парсера Util::AntiGateUtil::AntiGate. Необходимо предварительно настроить парсер Util::AntiGateUtil::AntiGate - указать свой ключ доступа и другие параметры, после чего выбрать созданный пресет