Перейти к основному содержимому

Check::BackLink - проверяет нахождение ссылки (ссылок) по базе ссылок

Check::RosKomNadzor

Обзор парсера Check::BackLink#

Парсер позволяет проверять обратные ссылки (backlinks), а именно ссылки на страницы сайтов, которые ссылаются на ваш сайт.

Функционал A-Parser позволяет сохранять настройки парсинга для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Кейсы по применению парсера Check::BackLink#

Мониторинг обратных ссылок

Периодическая проверка обратных ссылок с дозаписью результатов в таблицу баз данных SQLite

Список собираемых данных#

  • Сумма внешних и внутренних ссылок на странице
  • Проверяет наличие ссылки на указанной странице 0 и 1
    • 0 - означает, что нет точного соответствия бэклинка
    • 1 - означает, что есть точное соответствие бэклинка
  • Блокирование указанной страницы от просмотра через robots.txt 0 и 1
  • Блокирование индексации страницы через мета тег robots с атрибутом noindex, а так же блокирование перехода по ссылке через атрибут nofollow
  • Блокирование перехода по ссылке через атрибут rel=nofollow

какие данные собирает парсер SE::Google::TrustCheck

Дополнительные данные, которые можно получать:

  • Количество внешних и внутренних ссылок на странице
  • Список всех внешних и внутренних ссылок на странице

Возможности#

  • Проверяет наличие ссылки на указанной странице, с возможностью поиска ссылки по вхождению строки
  • Проверяет закрыта ли от индексации страница через robots.txt
  • Проверяет meta тег robots на наличие атрибутов noindex и nofollow
  • Проверяет наличие rel=nofollow у найденной ссылки
  • Поиск ссылки по вхождению строки
  • Возможность указать свой заголовок User-Agent

Варианты использования#

  • Проверка размещения своих ссылок на указанных страницах
  • Поиск ссылок отображающихся только определённому User-Agent (например для бота Google)

Примеры запросов#

В качестве запросов необходимо указывать страницу, на которой искать ссылку и через пробел указать искомую ссылку:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Подстановки запросов#

Вы можете использовать встроенные макросы для автоматической подстановки подзапросов из файлов, например мы хотим проверить сайты/сайт по базе страниц, укажем список страниц, на которых искать ссылки:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

В формате запросов укажем макрос подстановки дополнительных запросов из файла backlinks.txt, данный метод позволяет проверять базу сайтов на наличие списка ссылок из файла:

$query {subs:backlinks}

Данный макрос создаст столько же дополнительных запросов сколько их находится в файле на каждый исходный поисковый запрос, что в сумме даст [количество исходных запросов (ссылки на страницы)] х [количество запросов в файле backlinks] = [общее количество запросов] в результате работы макроса.

Еще можно указать в формате запросов протокол, чтобы можно было использовать в качестве запросов только домены:

http://$query

Данный формат подставит к каждому запросу http://.

Варианты вывода результатов#

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод в результаты наличие бэклинков, на какой странице находится бэклинк и проверка данной страницы на блокировку в файле robots.txt#

Формат результата (по-умолчанию):

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

В результате по-умолчанию будет отображаться бэклинк, ссылка на страницу где происходит поиск бэклинка, наличие или отсутствие бэклинка, и проверка страницы на блокировку в файле robots.txt

Пример результата:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Вывод в результаты наличие бэклинков, дополнительных параметров для анализа бэклинков и страниц с бэклинками в таблицу CSV#

Результат переменной $actualchecklink есть только в том случае, если на странице присутствует бэклинк, если бэклинка нет, то результат данной переменной будет none.

$actualbacklink и $actualchecklink - это реальные ссылки после редиректа.

Встроенная утилита tools.CSVLine позволяет создавать корректные табличные документы, готовые для импорта в Excel или Google Таблицы

Формат результата:

[%- tools.CSVline(p1.backlink, p1.checklink, p1.anchor, p1.nofollow, p1.noindex, p1.redirect, p1.exists, p1.robots, p1.actualbacklink, p1.actualchecklink, p1.intcount, p1.extcount) -%]

Имя файла:

$datefile.format().csv

Начальный текст:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Пример результата:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Скачать пример

Как импортировать пример в А-Парсер

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

tip

В Формате результатов применяется шаблонизатор Template Toolkit.

Что такое формат результатов.

В имени файла результатов нужно просто изменить разрешение файла на csv.

Чтобы опция "Начальный текст" была доступна в Редакторе заданий, нужно активировать "Больше опций". В "Начальный текст" записываем названия столбцов через запятую и второй строку делаем пустой.

Вывод внешних ссылок со страницы бэклинка в формате JSON:#

Формат результата:

[% data = {}; data.query = query; data.links = []; FOREACH item IN p1.extlinks; data.links.push(item.link); END; IF !firstString; ",\n"; ELSE; firstString = 0; END; data.json %]

Начальный текст:

[% firstString = 1 %][

Конечный текст:

]

Пример результата:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Обработка результатов#

A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Check::BackLink

Сохранение доменов внешних ссылок при наличии бэклинков#

Добавить фильтр и в выпадающем списке выбрать переменную траста $exists - Link exists. Выбрать тип: Строка равна. Далее нужно в поле "Строка" прописать значение, которое равно наличию бэклинка 1. Таким фильтром вы сможете вывести все результаты с наличием бэклинка.

Добавить Конструктор результатов и в выпадающем списке выбрать источник: $p1.extlinks.$i.link - Link. Выбрать тип: Extract Top Domain. Так получаем домены из внешних ссылок.

пример использования фильтра и Конструктора результатов в парсере Check::BackLink

Скачать пример

Как импортировать пример в А-Парсер

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=

tip

Конструктор результатов можно добавить столько раз, сколько вам нужно.

Смотреть также: Конструктор результатов

Смотреть также: Фильтры результатов

Возможные настройки#

Поддерживает все настройки парсера Check::BackLinkCheck::BackLink, а так же дополнительно:

Название параметраЗначение по умолчаниюОписание
Subdomains are internalОпределяет считать ли поддомены внутренними ссылками
User agentsMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Заголовок User-Agent при запросе страниц
Check robots.txtОпределяет проверять ли запрет индексации страницы через robots.txt
Match link by substringОпределяет осуществлять ли поиск ссылки по вхождению строки
Последнее обновление