Улучшение HTML::LinkExtractor - для обработки файлов robots.txt

tarasnick1 · 20 ноя 2016

Не плохо было бы добавить в HTML::LinkExtractor следование правилам robots.txt и мета-тегам robots -сильно облегчило задачу парсинга больших сайтов

johnsmith · 20 ноя 2016

зачем?

tarasnick1 · 20 ноя 2016

johnsmith сказал(а): ↑

зачем?
Нажмите, чтобы раскрыть...

написал выше - для облегчения парсинга больших сайтов (в большинстве случаев - информация о страницах, которые закрыты от индексации не нужна)

AntonR · 30 май 2018

может сделать эту задачку?

Adlab · 18 фев 2022

Присоединяюсь.
В robots.txt содержатся разделы и файлы сайта, которые нет необходимости индексировать - чаще всего это или страницы-дубликаты или технические страницы, не имеющие никакой ценности.
/comments/
/auth/
/author/
/user/
/search/

Однако ссылки на эти страницы может обнаружить парсер Linkextractor при обходе сайта. И таких страниц может быть очень много - прям десятки тысяч, из за чего скорость сканирования сильно уменьшается.

Хотелось бы иметь возможность перед запуском Linkextractor автоматически проверить запреты в Robots.txt и не допускать сканирование этих страниц вообще.

CNCNameless · 19 фев 2022

Тоже присоединяюсь. Интересно вкл возможность обхода страниц с учетом их запрета в robots.txt, метатегов (noindex/nofollow). Как уже писали ранее для экономии времени и ресурсов при сканировании.
Также интересно просто выводить дополнительную информацию по странице (наличие запрета на индексацию и где этот запрет в метатегах или robots.txt, каноничность страницы). По аналогии как это в Screaming Frog SEO Spider сделано, к сожалению там нельзя сканировать с нескольких прокси и при сканировании больших сайтов идет блокировка.

Adlab · 11 авг 2022

Уже многие попросили - можно ли надеяться что внедрите такой функционал?

Support · 12 авг 2022

Adlab сказал(а): ↑

можно ли надеяться что внедрите такой функционал?
Нажмите, чтобы раскрыть...

Если задача не отклонена, значит в планах ее реализация.

Улучшение HTML::LinkExtractor - для обработки файлов robots.txt

tarasnick1 A-Parser Enterprise License
A-Parser Enterprise

johnsmith A-Parser Enterprise License
A-Parser Enterprise

tarasnick1 A-Parser Enterprise License
A-Parser Enterprise

AntonR Member

Adlab A-Parser Enterprise License
A-Parser Enterprise

CNCNameless A-Parser Pro License
A-Parser Pro

Вложения:

Скриншот 22.02.22_16.32.37.jpg

Adlab A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Улучшение HTML::LinkExtractor - для обработки файлов robots.txt

tarasnick1 A-Parser Enterprise License A-Parser Enterprise

johnsmith A-Parser Enterprise License A-Parser Enterprise

tarasnick1 A-Parser Enterprise License A-Parser Enterprise

AntonR Member

Adlab A-Parser Enterprise License A-Parser Enterprise

CNCNameless A-Parser Pro License A-Parser Pro

Вложения:

Скриншот 22.02.22_16.32.37.jpg

Adlab A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

tarasnick1 A-Parser Enterprise License
A-Parser Enterprise

johnsmith A-Parser Enterprise License
A-Parser Enterprise

tarasnick1 A-Parser Enterprise License
A-Parser Enterprise

Adlab A-Parser Enterprise License
A-Parser Enterprise

CNCNameless A-Parser Pro License
A-Parser Pro

Adlab A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise