Перейти к основному содержимому

SE::Baidu - Парсер поисковой выдачи Baidu

img

Обзор парсера

Парсер поисковой выдачи Baidu. Благодаря парсеру Baidu вы сможете получать огромные базы ссылок, готовых для дальнейшего использования. Вы можете использовать запросы в том же виде, в котором вы вводите их в поисковую строку Bing, включая поисковые операторы (filetype, site, intitle).

Функционал A-Parser позволяет сохранять настройки парсинга парсера Baidu для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.

В парсере Baidu сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Кейсы по применению парсера

Собираемые данные

  • Cсылки
  • Сниппеты
  • Анкоры
  • Общее количество результатов
  • Список связанных слов
  • Количество страниц выдачи
Собираемые данные

Возможности

  • Парсит до 5000 результатов с запроса
  • Поддержка всех поисковых операторов Baidu (filetype:, site:, intitle:).
  • Собирает выдачу по запросу и связанных ключевых слов
  • Преобразование обрезанных ссылок в полные(опция Get full links)

Варианты использования

  • Сбор баз ссылок - для A-Poster, XRumer, AllSubmitter и т.д.
  • Оценка конкуренции для кейвордов
  • Проверка индексации сайтов
  • Сбор страниц, которые содержат указанные ключевые слова в заголовке страницы

Запросы

В качестве запросов необходимо указывать поисковые фразы, например:

test
site:www.baidu.com
百度产品大全
intitle:парсер

Подстановки запросов

Вы можете использовать встроенные макросы для разможения запросов, например мы хотим получить очень большую базу форумов, укажем несколько основных запросов на разных языках:

forum
форум
foro
论坛

В формате запросов укажем перебор символов от a до zzzz, данный метод позволяет максимально ротировать поисковую выдачу и получать множество новых уникальных результатов:

$query {az:a:zzzz}

Данный макрос создаст 475254 дополнительных запросов на каждый исходный поисковый запрос, что в сумме даст 4 х 475254 = 1901016 поисковых запроса, цифра впечатляющая, но это совсем не проблема для A-Parser'а. При скорости 2000 запросов в минуту такое задание обработается всего за 16 часов.

Использование операторов

Вы можете использовать поисковые операторы в формате запроса, таким образом он будет автоматически добавлен к каждому запросу из вашего списка:

site:$query

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Экспорт списка ссылок

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Конкуренция ключевых слов

Аналогично как в SE::Google.

Проверка индексации ссылок

Аналогично как в SE::Google.

Сохранение в формате SQL

Аналогично как в SE::Google.

Дамп результатов в JSON

Аналогично как в SE::Google.

Обработка результатов

A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Baidu

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Извлечение доменов

Аналогично как в SE::Google.

Удаление тегов из анкоров и сниппетов

Аналогично как в SE::Google.

Аналогично как в SE::Google.

Возможные настройки

Название параметраЗначение по умолчаниюОписание
Pages count5Количество страниц для парсинга (от 1 до 100)
Links per page50Количество ссылок в выдачи на каждую страницу (10 / 20 / 50)
Get full linksПреобразование обрезанных ссылок в полные (по дефолту отключена)