Создайте пожалуйста пресет - Универсальный парсер карты сайта. (sitemap.xml) Он есть практически на каждом сайте, который хоть немного заинтересован в поисковом трафике. И зачастую проще взять список url из него, а потом уже прочитать каждую страничку. Так можно избавится от мусорных-дублирующих страниц например на форумах и прочих страниц, которые владелец сайта не хочет показывать поисковикам. И этот вариант быстрее, чем считывать всё подряд и искать линки на другие страницы и потом фильтровать лишнее. Особенно на тысячах доменов. Проблема в том, что эти sitemap.xml могут быть разные. В одном файле, в нескольких, с разными именами, да еще и упакованные. Но отправная точка всегда robots.txt. Там они перечислены, надо взять имена и считать каждый, если архивы, то распаковать и считать. Я думаю, такой пресет пригодился бы большинству пользователей. Особенно в нем есть смысл, чтоб пропарсить много доменов, при этом не ДДОСя их. Так как можно готовый огромный список URL зарандомить потом и парсить много доменов параллельно не нагружая каждый.
Как раз из-за разнообразия сайтмапов, а также наличия/отсутствия robots.txt, затруднительно сделать описанное выше универсальное решение. Для каждого отдельного сайта нужно вручную искать ссылку на sitemap, его анализировать и делать под него парсер. Если же пытаться решать задачу универсально, то можно воспользоваться HTML::LinkExtractor, похожая тема обсуждалась тут: https://a-parser.com/threads/1333/