Создайте пожалуйста пресет - Универсальный парсер карты сайта. (sitemap.xml)
Он есть практически на каждом сайте, который хоть немного заинтересован в поисковом трафике. И зачастую проще взять список url из него, а потом уже прочитать каждую страничку. Так можно избавится от мусорных-дублирующих страниц например на форумах и прочих страниц, которые владелец сайта не хочет показывать поисковикам. И этот вариант быстрее, чем считывать всё подряд и искать линки на другие страницы и потом фильтровать лишнее. Особенно на тысячах доменов.
Проблема в том, что эти sitemap.xml могут быть разные. В одном файле, в нескольких, с разными именами, да еще и упакованные. Но отправная точка всегда robots.txt. Там они перечислены, надо взять имена и считать каждый, если архивы, то распаковать и считать.
Я думаю, такой пресет пригодился бы большинству пользователей. Особенно в нем есть смысл, чтоб пропарсить много доменов, при этом не ДДОСя их. Так как можно готовый огромный список URL зарандомить потом и парсить много доменов параллельно не нагружая каждый.
Он есть практически на каждом сайте, который хоть немного заинтересован в поисковом трафике. И зачастую проще взять список url из него, а потом уже прочитать каждую страничку. Так можно избавится от мусорных-дублирующих страниц например на форумах и прочих страниц, которые владелец сайта не хочет показывать поисковикам. И этот вариант быстрее, чем считывать всё подряд и искать линки на другие страницы и потом фильтровать лишнее. Особенно на тысячах доменов.
Проблема в том, что эти sitemap.xml могут быть разные. В одном файле, в нескольких, с разными именами, да еще и упакованные. Но отправная точка всегда robots.txt. Там они перечислены, надо взять имена и считать каждый, если архивы, то распаковать и считать.
Я думаю, такой пресет пригодился бы большинству пользователей. Особенно в нем есть смысл, чтоб пропарсить много доменов, при этом не ДДОСя их. Так как можно готовый огромный список URL зарандомить потом и парсить много доменов параллельно не нагружая каждый.