1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Пресет Запрос на пресет парсинга sitemap.xml

Тема в разделе "Каталог парсеров и пресетов", создана пользователем Gray12, 3 фев 2020.

  1. Gray12

    Gray12 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    1 мар 2018
    Сообщения:
    5
    Симпатии:
    1
    Создайте пожалуйста пресет - Универсальный парсер карты сайта. (sitemap.xml)

    Он есть практически на каждом сайте, который хоть немного заинтересован в поисковом трафике. И зачастую проще взять список url из него, а потом уже прочитать каждую страничку. Так можно избавится от мусорных-дублирующих страниц например на форумах и прочих страниц, которые владелец сайта не хочет показывать поисковикам. И этот вариант быстрее, чем считывать всё подряд и искать линки на другие страницы и потом фильтровать лишнее. Особенно на тысячах доменов.

    Проблема в том, что эти sitemap.xml могут быть разные. В одном файле, в нескольких, с разными именами, да еще и упакованные. Но отправная точка всегда robots.txt. Там они перечислены, надо взять имена и считать каждый, если архивы, то распаковать и считать.

    Я думаю, такой пресет пригодился бы большинству пользователей. Особенно в нем есть смысл, чтоб пропарсить много доменов, при этом не ДДОСя их. Так как можно готовый огромный список URL зарандомить потом и парсить много доменов параллельно не нагружая каждый.
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.570
    Симпатии:
    2.170
    Как раз из-за разнообразия сайтмапов, а также наличия/отсутствия robots.txt, затруднительно сделать описанное выше универсальное решение.
    Для каждого отдельного сайта нужно вручную искать ссылку на sitemap, его анализировать и делать под него парсер.
    Если же пытаться решать задачу универсально, то можно воспользоваться HTML::LinkExtractor HTML::LinkExtractor, похожая тема обсуждалась тут: https://a-parser.com/threads/1333/
     

Поделиться этой страницей