Как спарсить WordPress сайты (и не только) через A-Parser

Как спарсить WordPress сайты (и не только) через A-Parser

Приветствую!

В этом материале я расскажу как собрать сайты на движке WordPress через A-Parser с минимальным количеством мусора в виде других движков.

Кроме того такой подход можно использовать для сбора баз на любых движках.

Основной принцип сбора базы состоит в создании двух заданий —
  • задание №1 парсит поисковые системы по футпринтам
  • задание №2 выполняет проверку спарсенного урла на футпринты WordPress.
Если вдруг кто не знает, то футпринт это — часть кода, урла или текста на сайте, которая характеризует тот или иной тип сайта

Вообще, когда у движка уникальная структура URL или какие текстовые блоки, которые трудно изменить, то получить хороший результат можно и за один подход, например — запрос inurl:showthread в Гугл без проблем соберет форумы на SMF , потому что изменить урлы в этом движке очень сложно, а вот убрать футпринт «Powered by Simple Machines» не составляет труда и по этому запросу будет куча мусора.

Что касается WordPress, то у него нет какой то явной структуры URL к которой можно 100% привязаться при парсинге, хотя возможны варианты.

В любом случае речь идет о методике, когда 100% привязка к урлам при парсинге поисковой системы невозможна, поэтому создадим задание №1 которое спарсит сайты, которые скорее всего будут WordPress.

Автор
Reset
Просмотры
25
Первый выпуск
Обновление

Рейтинги

5,00 звёзд Оценок: 1
Назад
Верх