Не плохо было бы добавить в HTML::LinkExtractor следование правилам robots.txt и мета-тегам robots -сильно облегчило задачу парсинга больших сайтов
написал выше - для облегчения парсинга больших сайтов (в большинстве случаев - информация о страницах, которые закрыты от индексации не нужна)
Присоединяюсь. В robots.txt содержатся разделы и файлы сайта, которые нет необходимости индексировать - чаще всего это или страницы-дубликаты или технические страницы, не имеющие никакой ценности. /comments/ /auth/ /author/ /user/ /search/ Однако ссылки на эти страницы может обнаружить парсер Linkextractor при обходе сайта. И таких страниц может быть очень много - прям десятки тысяч, из за чего скорость сканирования сильно уменьшается. Хотелось бы иметь возможность перед запуском Linkextractor автоматически проверить запреты в Robots.txt и не допускать сканирование этих страниц вообще.
Тоже присоединяюсь. Интересно вкл возможность обхода страниц с учетом их запрета в robots.txt, метатегов (noindex/nofollow). Как уже писали ранее для экономии времени и ресурсов при сканировании. Также интересно просто выводить дополнительную информацию по странице (наличие запрета на индексацию и где этот запрет в метатегах или robots.txt, каноничность страницы). По аналогии как это в Screaming Frog SEO Spider сделано, к сожалению там нельзя сканировать с нескольких прокси и при сканировании больших сайтов идет блокировка.