Перейти к основному содержимому

SE::MailRu - Парсер поисковой выдачи Mail.ru

img

Обзор парсера Mail Ru#

Парсер поисковой выдачи Mail Ru. Благодаря парсеру Mail Ru вы сможете получать большие базы ссылок, готовых для дальнейшего использования. Вы можете использовать запросы в том же виде, в котором вы вводите их в поисковую строку Dogpile, включая поисковые операторы(language, site и т.д.). Детальнее на официальной странице Язык запросов.

Функционал A-Parser позволяет сохранять настройки парсинга парсера Mail Ru для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Список собираемых данных#

  • Ссылки, анкоры и сниппеты из выдачи
  • Ссылки на кэш
  • Количество результатов по запросу

какие данные собирает парсер SE::MailRu

Возможности#

  • Парсит максимальное отдаваемое число результатов - 50 страниц по 10 элементов в выдачи
  • Общее количество результатов - 500
  • Работа с антигейтом для разгадывания каптч(опция AntiGate preset).
  • Поддержка сессий(опция Use sessions).

Варианты использования#

  • Сбор баз ссылок - для A-Poster, XRumer, AllSubmitter и т.д.
  • Оценка конкуренции для кейвордов
  • Поиск беклинков(упоминаний) сайтов
  • Проверка индексации сайтов
  • Поиск уязвимых сайтов
  • Любые другие варианты подразумевающие парсинг Mail.Ru в том или ином виде

Примеры запросов#

  • В качестве запросов необходимо указывать поисковые фразы, точно так же как если бы их вводили прямо в форму поиска Mail.Ru, например:
test
окна Москва
site:a-parser.com mail
parser language: ru

Подстановки запросов#

Вы можете использовать встроенные макросы для разможения запросов, например мы хотим получить очень большую базу форумов, укажем несколько основных запросов на разных языках:

forum
форум
foro
论坛

В формате запросов укажем перебор символов от a до zzzz, данный метод позволяет максимально ротировать поисковую выдачу и получать множество новых уникальных результатов:

$query {az:a:zzzz}

Данный макрос создаст 475254 дополнительных запросов на каждый исходный поисковый запрос, что в сумме даст 4 х 475254 = 1901016 поисковых запроса, цифра впечатляющая, но это совсем не проблема для A-Parser'а. При скорости 2000 запросов в минуту такое задание обработается всего за 16 часов

Использование операторов#

Вы можете использовать поисковые операторы в формате запроса, таким образом он будет автоматически добавлен к каждому запросу из вашего списка:

site:$query

Варианты вывода результатов#

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Экспорт списка ссылок#

Аналогично как в SE::Google.

Ссылки + анкоры + сниппеты с выводом позиции#

Аналогично как в SE::Google.

Вывод ссылок, анкоров и сниппетов в таблицу CSV#

Аналогично как в SE::Google.

Конкуренция ключевых слов#

Аналогично как в SE::Google.

Проверка индексации ссылок#

Аналогично как в SE::Google.

Сохранение в формате SQL#

Аналогично как в SE::Google.

Дамп результатов в JSON#

Аналогично как в SE::Google.

Обработка результатов#

A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Mail Ru

Уникализация ссылок#

Аналогично как в SE::Google.

Уникализация ссылок по домену#

Аналогично как в SE::Google.

Извлечение доменов#

Аналогично как в SE::Google.

Удаление тегов из анкоров и сниппетов#

Аналогично как в SE::Google.

Фильтрация ссылок по вхождению#

Аналогично как в SE::Google.

Возможные настройки#

Название параметраЗначение по умолчаниюОписание
Pages count10Количество страниц для парсинга(от 1 до 50)
AntiGate presetdefaultПодключение антигейта, необходимо предварительно настроить парсер Util::AntiGateUtil::AntiGate и выбрать созданный пресет здесь. Как настроить Анигейт
Use sessionsCохраняет хорошие сессии что позволяет парсить еще быстрее, получая меньшее число ошибок. Обсуждение опции
Последнее обновление