Перейти к основному содержимому

Check::BackLink - проверяет нахождение ссылки (ссылок) по базе ссылок

Обзор парсера

Обзор парсера: скорость работы

Парсер позволяет проверять обратные ссылки (backlinks), а именно ссылки на страницы сайтов, которые ссылаются на ваш сайт.

Функционал A-Parser позволяет сохранять настройки парсинга для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Кейсы по применению парсера

Собираемые данные

  • Сумма внешних и внутренних ссылок на странице
  • Проверяет наличие ссылки на указанной странице 0 и 1
    • 0 - означает, что нет точного соответствия бэклинка
    • 1 - означает, что есть точное соответствие бэклинка
  • Блокирование указанной страницы от просмотра через robots.txt - 0 и 1
  • Блокирование индексации страницы через метатег robots с атрибутом noindex, а так же блокирование перехода по ссылке через атрибут nofollow
  • Блокирование перехода по ссылке через атрибут rel=nofollow
Пример вывода данных в CSV

Дополнительные данные, которые можно получать:

  • Количество внешних и внутренних ссылок на странице
  • Список всех внешних и внутренних ссылок на странице

Возможности

  • Проверяет наличие ссылки на указанной странице, с возможностью поиска ссылки без указания схемы по вхождению строки
  • Проверяет закрыта ли от индексации страница через robots.txt
  • Проверяет метатег robots на наличие атрибутов noindex и nofollow
  • Проверяет наличие rel=nofollow у найденной ссылки
  • Поиск ссылки по вхождению строки
  • Возможность указать свой заголовок User-Agent

Варианты использования

  • Проверка размещения своих ссылок на указанных страницах
  • Поиск ссылок отображающихся только определённому User-Agent (например для бота Google)

Запросы

В качестве запросов необходимо указывать страницу, на которой искать ссылку и через пробел указать искомую ссылку:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Подстановки запросов

Вы можете использовать встроенные макросы для автоматической подстановки подзапросов из файлов, например мы хотим проверить сайты/сайт по базе страниц, укажем список страниц, на которых искать ссылки:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

В формате запросов укажем макрос подстановки дополнительных запросов из файла backlinks.txt, данный метод позволяет проверять базу сайтов на наличие списка ссылок из файла:

$query {subs:backlinks}

Данный макрос создаст столько же дополнительных запросов сколько их находится в файле на каждый исходный поисковый запрос, что в сумме даст [количество исходных запросов (ссылки на страницы)] х [количество запросов в файле backlinks] = [общее количество запросов] в результате работы макроса.

Еще можно указать в формате запросов протокол, чтобы можно было использовать в качестве запросов только домены:

http://$query 

Данный формат подставит к каждому запросу http://.

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Пример результата, в котором отображен бэклинк, ссылка на страницу где происходит поиск бэклинка, наличие или отсутствие бэклинка, и проверка страницы на блокировку в файле robots.txt:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Вывод наличия бэклинков и дополнительных параметров для анализа бэклинков и страниц с бэклинками в таблицу CSV

Встроенная утилита $tools.CSVLine позволяет создавать корректные табличные документы, готовые для импорта в Excel или Google Таблицы.

Результат переменной $actualchecklink есть только в том случае, если на странице присутствует бэклинк, если бэклинка нет, то результат данной переменной будет none. $actualbacklink и $actualchecklink - это реальные ссылки после редиректа.

Формат результата:

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

Имя файла:

$datefile.format().csv

Начальный текст:

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

Пример результата:

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Скачать пример

Как импортировать пример в А-Парсер

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

подсказка

В Формате результатов применяется шаблонизатор Template Toolkit.

Что такое формат результатов.

В имени файла результатов нужно просто изменить разрешение файла на csv.

Чтобы опция "Начальный текст" была доступна в Редакторе заданий, нужно активировать "Больше опций". В "Начальный текст" записываем названия столбцов через запятую и второй строку делаем пустой.

Дамп внешних ссылок со страницы бэклинка в JSON

Формат результата:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Начальный текст:

[% firstString = 1 %][

Конечный текст:

]

Пример результата:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Обработка результатов

A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Check::BackLink

Добавить фильтр и в выпадающем списке выбрать переменную траста $exists - Link exists. Выбрать тип: Строка равна. Далее нужно в поле Строка прописать значение, которое равно наличию бэклинка 1. Таким фильтром вы сможете вывести все результаты с наличием бэклинка.

Добавить Конструктор результатов и в выпадающем списке выбрать источник: $p1.extlinks.$i.link - Link. Выбрать тип: Extract Top Domain. Так получаем домены из внешних ссылок.

Пример использования фильтра и Конструктора результатов
Скачать пример

Как импортировать пример в А-Парсер

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
подсказка

Конструктор результатов можно добавить столько раз, сколько вам нужно.

Смотреть также:

Возможные настройки

Поддерживает все настройки парсера HTML::LinkExtractorHTML::LinkExtractor, а также дополнительно:

Название параметраЗначение по умолчаниюОписание
Check robots.txtОпределяет проверять ли запрет индексации страницы через robots.txt
Match link by substringОпределяет осуществлять ли поиск ссылки по вхождению строки. Можно проверять ссылки без указания схемы, например по домену без указания http протокола