Пресет Запрос на пресет парсинга sitemap.xml

Gray12 · 3 Фев 2020

Создайте пожалуйста пресет - Универсальный парсер карты сайта. (sitemap.xml)

Он есть практически на каждом сайте, который хоть немного заинтересован в поисковом трафике. И зачастую проще взять список url из него, а потом уже прочитать каждую страничку. Так можно избавится от мусорных-дублирующих страниц например на форумах и прочих страниц, которые владелец сайта не хочет показывать поисковикам. И этот вариант быстрее, чем считывать всё подряд и искать линки на другие страницы и потом фильтровать лишнее. Особенно на тысячах доменов.

Проблема в том, что эти sitemap.xml могут быть разные. В одном файле, в нескольких, с разными именами, да еще и упакованные. Но отправная точка всегда robots.txt. Там они перечислены, надо взять имена и считать каждый, если архивы, то распаковать и считать.

Я думаю, такой пресет пригодился бы большинству пользователей. Особенно в нем есть смысл, чтоб пропарсить много доменов, при этом не ДДОСя их. Так как можно готовый огромный список URL зарандомить потом и парсить много доменов параллельно не нагружая каждый.

Support · 3 Фев 2020

Как раз из-за разнообразия сайтмапов, а также наличия/отсутствия robots.txt, затруднительно сделать описанное выше универсальное решение.
Для каждого отдельного сайта нужно вручную искать ссылку на sitemap, его анализировать и делать под него парсер.
Если же пытаться решать задачу универсально, то можно воспользоваться

HTML::LinkExtractor, похожая тема обсуждалась тут: https://a-parser.com/threads/1333/

Пресет Запрос на пресет парсинга sitemap.xml

Gray12

A-Parser Enterprise License

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка