1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение HTML::LinkExtractor - для обработки файлов robots.txt

Тема в разделе "Задачи", создана пользователем tarasnick1, 20 ноя 2016.

  1. tarasnick1

    tarasnick1 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    24 авг 2015
    Сообщения:
    39
    Симпатии:
    29
    Не плохо было бы добавить в HTML::LinkExtractor следование правилам robots.txt и мета-тегам robots -сильно облегчило задачу парсинга больших сайтов
     
    MrSlim нравится это.
  2. johnsmith

    johnsmith A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 мар 2013
    Сообщения:
    63
    Симпатии:
    31
    зачем?
     
  3. tarasnick1

    tarasnick1 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    24 авг 2015
    Сообщения:
    39
    Симпатии:
    29
    написал выше - для облегчения парсинга больших сайтов (в большинстве случаев - информация о страницах, которые закрыты от индексации не нужна)
     
  4. AntonR

    AntonR Member

    Регистрация:
    7 дек 2013
    Сообщения:
    84
    Симпатии:
    13
    может сделать эту задачку?
     
  5. Adlab

    Adlab A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    11 дек 2021
    Сообщения:
    3
    Симпатии:
    0
    Присоединяюсь.
    В robots.txt содержатся разделы и файлы сайта, которые нет необходимости индексировать - чаще всего это или страницы-дубликаты или технические страницы, не имеющие никакой ценности.
    /comments/
    /auth/
    /author/
    /user/
    /search/

    Однако ссылки на эти страницы может обнаружить парсер Linkextractor при обходе сайта. И таких страниц может быть очень много - прям десятки тысяч, из за чего скорость сканирования сильно уменьшается.


    Хотелось бы иметь возможность перед запуском Linkextractor автоматически проверить запреты в Robots.txt и не допускать сканирование этих страниц вообще.
     
  6. CNCNameless

    CNCNameless A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 фев 2022
    Сообщения:
    3
    Симпатии:
    3
    Тоже присоединяюсь. Интересно вкл возможность обхода страниц с учетом их запрета в robots.txt, метатегов (noindex/nofollow). Как уже писали ранее для экономии времени и ресурсов при сканировании.
    Также интересно просто выводить дополнительную информацию по странице (наличие запрета на индексацию и где этот запрет в метатегах или robots.txt, каноничность страницы). По аналогии как это в Screaming Frog SEO Spider сделано, к сожалению там нельзя сканировать с нескольких прокси и при сканировании больших сайтов идет блокировка.

    [​IMG]
     

    Вложения:

    #6 CNCNameless, 19 фев 2022
    Последнее редактирование: 22 фев 2022
  7. Adlab

    Adlab A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    11 дек 2021
    Сообщения:
    3
    Симпатии:
    0
    Уже многие попросили - можно ли надеяться что внедрите такой функционал?
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Если задача не отклонена, значит в планах ее реализация.
     
    CNCNameless нравится это.

Поделиться этой страницей