Check::BackLink - проверяет нахождение ссылки (ссылок) по базе ссылок
Обзор парсера
Парсер позволяет проверять обратные ссылки (backlinks), а именно ссылки на страницы сайтов, которые ссылаются на ваш сайт.
Функционал A-Parser позволяет сохранять настройки парсинга для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.
Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.
Кейсы по применению парсера
🔗 Мониторинг обратных ссылок
Периодическая проверка обратных ссылок с дозаписью результатов в таблицу баз данных SQLite
Собираемые данные
- Сумма внешних и внутренних ссылок на странице
- Проверяет наличие ссылки на указанной странице
0
и1
0
- означает, что нет точного соответствия бэклинка1
- означает, что есть точное соответствие бэклинка
- Блокирование указанной страницы от просмотра через robots.txt -
0
и1
- Блокирование индексации страницы через метатег robots с атрибутом
noindex
, а так же блокирование перехода по ссылке через атрибутnofollow
- Блокирование перехода по ссылке через атрибут
rel=nofollow
Дополнительные данные, которые можно получать:
- Количество внешних и внутренних ссылок на странице
- Список всех внешних и внутренних ссылок на странице
Возможности
- Проверяет наличие ссылки на указанной странице, с возможностью поиска ссылки без указания схемы по вхождению строки
- Проверяет закрыта ли от индексации страница через robots.txt
- Проверяет метатег robots на наличие атрибутов
noindex
иnofollow
- Проверяет наличие
rel=nofollow
у найденной ссылки - Поиск ссылки по вхождению строки
- Возможность указать свой заголовок User-Agent
Варианты использования
- Проверка размещения своих ссылок на указанных страницах
- Поиск ссылок отображающихся только определённому User-Agent (например для бота Google)
Запросы
В качестве запросов необходимо указывать страницу, на которой искать ссылку и через пробел указать искомую ссылку:
https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/
Подстановки запросов
Вы можете использовать встроенные макросы для автоматической подстановки подзапросов из файлов, например мы хотим проверить сайты/сайт по базе страниц, укажем список страниц, на которых искать ссылки:
https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/
В формате запросов укажем макрос подстановки дополнительных запросов из файла backlinks.txt, данный метод позволяет проверять базу сайтов на наличие списка ссылок из файла:
$query {subs:backlinks}
Данный макрос создаст столько же дополнительных запросов сколько их находится в файле на каждый исходный поисковый запрос, что в сумме даст [количество исходных запросов (ссылки на страницы)] х [количество запросов в файле backlinks] = [общее количество запросов]
в результате работы макроса.
Еще можно указать в формате запросов протокол, чтобы можно было использовать в качестве запросов только домены:
http://$query
Данный формат подставит к каждому запросу http://
.
Варианты вывода результатов
A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON
Вывод по умолчанию
Формат результата:
$backlink - $checklink: $exists, blocked by robots.txt: $robots\n
Пример результата, в котором отображен бэклинк, ссылка на страницу где происходит поиск бэклинка, наличие или отсутствие бэклинка, и проверка страницы на блокировку в файле robots.txt:
http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0
Вывод наличия бэклинков и дополнительных параметров для анализа бэклинков и страниц с бэклинками в таблицу CSV
Встроенная утилита $tools.CSVLine
позволяет создавать корректные табличные документы, готовые для импорта в Excel или Google Таблицы.
Результат переменной $actualchecklink
есть только в том случае, если на странице присутствует бэклинк, если бэклинка нет, то результат данной переменной будет none
. $actualbacklink
и $actualchecklink
- это реальные ссылки после редиректа.
Формат результата:
[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]
Имя файла:
$datefile.format().csv
Начальный текст:
Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count
Пример результата:
https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Скачать пример
Как импортировать пример в А-Парсер
eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=
В Формате результатов применяется шаблонизатор Template Toolkit.
В имени файла результатов нужно просто изменить разрешение файла на csv.
Чтобы опция "Начальный текст" была доступна в Редакторе заданий, нужно активировать "Больше опций". В "Начальный текст" записываем названия столбцов через запятую и второй строку делаем пустой.
Дамп внешних ссылок со страницы бэклинка в JSON
Формат результата:
[% data = {};
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]
Начальный текст:
[% firstString = 1 %][
Конечный текст:
]
Пример результата:
[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]
Обработка результатов
A-Parser позволяет обрабатывать результаты непосредственно во время парсинга, в этом разделе мы привели наиболее популярные кейсы для парсера Check::BackLink
Сохранение доменов внешних ссылок при наличии бэклинков
Добавить фильтр и в выпадающем списке выбрать переменную траста $exists - Link exists
. Выбрать тип: Строка равна
. Далее нужно в поле Строка прописать значение, которое равно наличию бэклинка 1
. Таким фильтром вы сможете вывести все результаты с наличием бэклинка.
Добавить Конструктор результатов и в выпадающем списке выбрать источник: $p1.extlinks.$i.link - Link
. Выбрать тип: Extract Top Domain
. Так получаем домены из внешних ссылок.
Скачать пример
Как импортировать пример в А-Парсер
eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
Конструктор результатов можно добавить столько раз, сколько вам нужно.
Смотреть также:
Возможные настройки
Поддерживает все настройки парсера HTML::LinkExtractor, а также дополнительно:
Название параметра | Значение по умолчанию | Описание |
---|---|---|
Check robots.txt | ☑ | Определяет проверять ли запрет индексации страницы через robots.txt |
Match link by substring | ☐ | Определяет осуществлять ли поиск ссылки по вхождению строки. Можно проверять ссылки без указания схемы, например по домену без указания http протокола |