SE::Rambler - парсер поисковой выдачи Рамблера
Обзор парсера
Парсер поисковой выдачи Рамблер. Благодаря парсеру Рамблер вы сможете получать большие базы ссылок, готовых для дальнейшего использования. Вы можете использовать запросы в том же виде, в котором вы вводите их в поисковую строку Рамблер, включая поисковые операторы (site, ip и т.д.).
Функционал A-Parser позволяет сохранять настройки парсинга парсера Рамблер для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.
Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.
Собираемые данные
- Количество результатов в выдаче
- Ссылки, анкоры и сниппеты из выдачи
- Список связанных ключевых слов (hints)
Возможности
- Поддержка поисковых операторов Рамблера(url:, site:, inurl:, host:, rhost:, domain:.)
- Парсит до 25 страниц, от 10 до 50 результатов на странице
- Парсит связанные ключевые слова ($hints)
- Возможность использовать сервисы разгадывания для обхода каптч
- Выбор устройства выдачи: обычный десктоп, мобильный Android или мобильный iOS
Варианты использования
- Сбор баз ссылок
- Оценка конкуренции для ключевых слов
- Поиск беклинков (упоминаний) сайтов
- Все случаи, когда нужно спарсить поисковую выдачу Рамблера
Запросы
Указывайте запросы так же, как в поиске Рамблера. Допустим, нужны только ссылки с одного сайта. Вводим в поле запросов:
"купить двери" site:http://kp.ru
Подстановки запросов
Вы можете использовать встроенные макросы для разможения запросов, например мы хотим получить очень большую базу форумов, укажем несколько основных запросов на разных языках:
forum
форум
foro
论坛
В формате запросов укажем перебор символов от a до zzzz, данный метод позволяет максимально ротировать поисковую выдачу и получать множество новых уникальных результатов:
$query {az:a:zzzz}
Данный макрос создаст 475254
дополнительных запросов на каждый исходный поисковый запрос, что в сумме даст 4 х 475254 = 1901016
поисковых запроса, цифра впечатляющая, но это совсем не проблема для A-Parser'а. При скорости 2000
запросов в минуту такое задание обработается всего за 16
часов.
Использование операторов
Вы можете использовать поисковые операторы в формате запроса, таким образом он будет автоматически добавлен к каждому запросу из вашего списка:
site:$query
Варианты вывода результатов
A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON
Экспорт списка ссылок
Ссылки + анкоры + сниппеты с выводом позиции
Вывод ссылок, анкоров и сниппетов в таблицу CSV
Сохранение связанных ключевых слов
Формат результата:
$hints.format('$hint\n')
Пример результата:
habrahabr
habr
habrahabr ru
xabra
livebusiness
эврика
электронный бухгалтер
остров эльба
эльба электронный бухгалтер
хаброхабр
...
Сохранение в формате SQL
Дамп результатов в JSON
Обработка результатов
A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Rambler
Уникализация ссылок
Уникализация ссылок по домену
Извлечение доменов
Удаление тегов из анкоров и сниппетов
Фильтрация ссылок по вхождению
Возможные настройки
Название параметра | Значение по умолчанию | Описание |
---|---|---|
Device | Desktop | Выбор устройства выдачи: обычный десктоп, мобильный Android или мобильный iOS |
Pages count | 5 | Количество страниц для парсинга (от 1 до 25) |
Links per page | 10 | Количество результатов на странице (10/15/30/50) |
Rambler region ID | Возможность задать регион. Нужно указывать ID региона. Как узнать ID нужного региона - описано здесь | |
Sort | Sites by relevance | Выбор варианта сортировки результатов |
Results filtering | Moderate | Выбор варианта фильтрации результатов |
Results language | Any language | Выбор языка поиска результатов |
Serp time | Anytime | Выбор периода результатов |
Results type | Any format | Выбор типа результатов (mime type) |
Exact match | ☐ | Строгое соответствие запросу |
Disable autocorrect | ☐ | Отключает автоисправление, позволяет парсить выдачу именно по указанному запросу |
Use sessions | ☑ | Cохраняет хорошие сессии, что позволяет парсить еще быстрее, получая меньшее число ошибок |
AntiGate preset | default | Определяет использовать ли Util::AntiGate для обхода каптч |