Улучшение HTML::LinkExtractor - для обработки файлов robots.txt

tarasnick1

A-Parser Enterprise License
A-Parser Enterprise
Не плохо было бы добавить в HTML::LinkExtractor следование правилам robots.txt и мета-тегам robots -сильно облегчило задачу парсинга больших сайтов
 
Присоединяюсь.
В robots.txt содержатся разделы и файлы сайта, которые нет необходимости индексировать - чаще всего это или страницы-дубликаты или технические страницы, не имеющие никакой ценности.
/comments/
/auth/
/author/
/user/
/search/

Однако ссылки на эти страницы может обнаружить парсер Linkextractor при обходе сайта. И таких страниц может быть очень много - прям десятки тысяч, из за чего скорость сканирования сильно уменьшается.


Хотелось бы иметь возможность перед запуском Linkextractor автоматически проверить запреты в Robots.txt и не допускать сканирование этих страниц вообще.
 
Тоже присоединяюсь. Интересно вкл возможность обхода страниц с учетом их запрета в robots.txt, метатегов (noindex/nofollow). Как уже писали ранее для экономии времени и ресурсов при сканировании.
Также интересно просто выводить дополнительную информацию по странице (наличие запрета на индексацию и где этот запрет в метатегах или robots.txt, каноничность страницы). По аналогии как это в Screaming Frog SEO Spider сделано, к сожалению там нельзя сканировать с нескольких прокси и при сканировании больших сайтов идет блокировка.

 

Вложения

  • Скриншот 22.02.22_16.32.37.jpg
    Скриншот 22.02.22_16.32.37.jpg
    94,1 КБ · Просмотры: 5
Последнее редактирование:
Уже многие попросили - можно ли надеяться что внедрите такой функционал?
 
Назад
Верх