Пресет Запрос на пресет парсинга sitemap.xml

Gray12 · 3 фев 2020

Создайте пожалуйста пресет - Универсальный парсер карты сайта. (sitemap.xml)

Он есть практически на каждом сайте, который хоть немного заинтересован в поисковом трафике. И зачастую проще взять список url из него, а потом уже прочитать каждую страничку. Так можно избавится от мусорных-дублирующих страниц например на форумах и прочих страниц, которые владелец сайта не хочет показывать поисковикам. И этот вариант быстрее, чем считывать всё подряд и искать линки на другие страницы и потом фильтровать лишнее. Особенно на тысячах доменов.

Проблема в том, что эти sitemap.xml могут быть разные. В одном файле, в нескольких, с разными именами, да еще и упакованные. Но отправная точка всегда robots.txt. Там они перечислены, надо взять имена и считать каждый, если архивы, то распаковать и считать.

Я думаю, такой пресет пригодился бы большинству пользователей. Особенно в нем есть смысл, чтоб пропарсить много доменов, при этом не ДДОСя их. Так как можно готовый огромный список URL зарандомить потом и парсить много доменов параллельно не нагружая каждый.

Support · 3 фев 2020

Как раз из-за разнообразия сайтмапов, а также наличия/отсутствия robots.txt, затруднительно сделать описанное выше универсальное решение.
Для каждого отдельного сайта нужно вручную искать ссылку на sitemap, его анализировать и делать под него парсер.
Если же пытаться решать задачу универсально, то можно воспользоваться HTML::LinkExtractor, похожая тема обсуждалась тут: https://a-parser.com/threads/1333/

Пресет Запрос на пресет парсинга sitemap.xml

Gray12 A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Пресет Запрос на пресет парсинга sitemap.xml

Gray12 A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

Gray12 A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise