Перейти к основному содержимому

SE::Rambler - парсер поисковой выдачи Рамблера

img

Обзор парсера

Парсер поисковой выдачи Рамблер. Благодаря парсеру Рамблер вы сможете получать большие базы ссылок, готовых для дальнейшего использования. Вы можете использовать запросы в том же виде, в котором вы вводите их в поисковую строку Рамблер, включая поисковые операторы (site, ip и т.д.).

Функционал A-Parser позволяет сохранять настройки парсинга парсера Рамблер для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Собираемые данные

  • Количество результатов в выдаче
  • Ссылки, анкоры и сниппеты из выдачи
  • Список связанных ключевых слов (hints)

какие данные собирает парсер SE::Rambler

Возможности

  • Поддержка поисковых операторов Рамблера(url:, site:, inurl:, host:, rhost:, domain:.)
  • Парсит до 25 страниц, от 10 до 50 результатов на странице
  • Парсит связанные ключевые слова ($hints)
  • Возможность использовать сервисы разгадывания для обхода каптч
  • Выбор устройства выдачи: обычный десктоп, мобильный Android или мобильный iOS

Варианты использования

  • Сбор баз ссылок
  • Оценка конкуренции для ключевых слов
  • Поиск беклинков (упоминаний) сайтов
  • Все случаи, когда нужно спарсить поисковую выдачу Рамблера

Запросы

Указывайте запросы так же, как в поиске Рамблера. Допустим, нужны только ссылки с одного сайта. Вводим в поле запросов:

"купить двери" site:http://kp.ru

Подстановки запросов

Вы можете использовать встроенные макросы для разможения запросов, например мы хотим получить очень большую базу форумов, укажем несколько основных запросов на разных языках:

forum
форум
foro
论坛

В формате запросов укажем перебор символов от a до zzzz, данный метод позволяет максимально ротировать поисковую выдачу и получать множество новых уникальных результатов:

$query {az:a:zzzz}

Данный макрос создаст 475254 дополнительных запросов на каждый исходный поисковый запрос, что в сумме даст 4 х 475254 = 1901016 поисковых запроса, цифра впечатляющая, но это совсем не проблема для A-Parser'а. При скорости 2000 запросов в минуту такое задание обработается всего за 16 часов.

Использование операторов

Вы можете использовать поисковые операторы в формате запроса, таким образом он будет автоматически добавлен к каждому запросу из вашего списка:

site:$query

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Экспорт списка ссылок

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Формат результата:

$hints.format('$hint\n')

Пример результата:

habrahabr
habr
habrahabr ru
xabra
livebusiness
эврика
электронный бухгалтер
остров эльба
эльба электронный бухгалтер
хаброхабр
...

Сохранение в формате SQL

Аналогично как в SE::Google.

Дамп результатов в JSON

Аналогично как в SE::Google.

Обработка результатов

A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Rambler

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Извлечение доменов

Аналогично как в SE::Google.

Удаление тегов из анкоров и сниппетов

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Возможные настройки

Название параметраЗначение по умолчаниюОписание
DeviceDesktopВыбор устройства выдачи: обычный десктоп, мобильный Android или мобильный iOS
Pages count5Количество страниц для парсинга (от 1 до 25)
Links per page10Количество результатов на странице (10/15/30/50)
Rambler region IDВозможность задать регион. Нужно указывать ID региона. Как узнать ID нужного региона - описано здесь
SortSites by relevanceВыбор варианта сортировки результатов
Results filteringModerateВыбор варианта фильтрации результатов
Results languageAny languageВыбор языка поиска результатов
Serp timeAnytimeВыбор периода результатов
Results typeAny formatВыбор типа результатов (mime type)
Exact matchСтрогое соответствие запросу
Disable autocorrectОтключает автоисправление, позволяет парсить выдачу именно по указанному запросу
Use sessionsCохраняет хорошие сессии, что позволяет парсить еще быстрее, получая меньшее число ошибок
AntiGate presetdefaultОпределяет использовать ли Util::AntiGateUtil::AntiGate для обхода каптч