1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Как спарсить WordPress сайты (и не только) через A-Parser

Статья о том, как как собрать сайты на движке WordPress с минимальным количеством мусора

Метки:
  1. Reset
    Приветствую!

    В этом материале я расскажу как собрать сайты на движке WordPress через A-Parser с минимальным количеством мусора в виде других движков.

    Кроме того такой подход можно использовать для сбора баз на любых движках.

    Основной принцип сбора базы состоит в создании двух заданий —
    • задание №1 парсит поисковые системы по футпринтам
    • задание №2 выполняет проверку спарсенного урла на футпринты WordPress.
    Если вдруг кто не знает, то футпринт это — часть кода, урла или текста на сайте, которая характеризует тот или иной тип сайта

    Вообще, когда у движка уникальная структура URL или какие текстовые блоки, которые трудно изменить, то получить хороший результат можно и за один подход, например — запрос inurl:showthread в Гугл без проблем соберет форумы на SMF , потому что изменить урлы в этом движке очень сложно, а вот убрать футпринт «Powered by Simple Machines» не составляет труда и по этому запросу будет куча мусора.

    Что касается WordPress, то у него нет какой то явной структуры URL к которой можно 100% привязаться при парсинге, хотя возможны варианты.

    В любом случае речь идет о методике, когда 100% привязка к урлам при парсинге поисковой системы невозможна, поэтому создадим задание №1 которое спарсит сайты, которые скорее всего будут WordPress.