день добрый. есть задача - собирать тг группы определенной страны. сейчас я паршу гугл запросами вроде intext:t.me/ + различные размножители типа списка ключевиков, {az:a:zzz} и подобных штук. это первое задание. затем собранные линки передаю в HTML::TextExtractor::LangDetect, в нем фильтрую страницы с неподходящими языками, а с оставшихся регуляркой собираю вот это (?m)(t\.me\/[a-zA-Z0-9\-_\+]*) это второе. и третье - передаю собранные линки в NET::HTTP (наверное можно и тот-же HTML::TextExtractor::LangDetect использовать), там с помощью регулярок разбираюсь что за линк - канал, группа, бот, паблик или приват, немного доп инфы типа количества людей в группе, названия и т.п. и в зависимости от того что спарсилось - раскладываю в отдельные файлики результатов. (на самом деле это пока только план, но с реализацией проблем не вижу. возможно будет и так.) а объединить 3 и 2 задания можно? чтобы работало как паук, но не на все подряд ссылки ходило на заданную глубину, а только по тем, которые условиям соответствуют. то есть вот есть линк на страницу от парсера гугла. заходим по этому линку, парсим язык и, регуляркой - все линки на телеграмм. если язык подходящий - то переходим по собранным линкам, регулярками собираем данные и в зависимости от того что собрали - пишем результат в соответствующий файлик.
Добрый день Все это почти наверняка можно объединить в один парсер. Для этого нужно создать JS парсер и в нем прописать всю необходимую логику, используя многоуровневый парсинг и выполняя нужные действия в зависимости от уровня запроса (переменная set.lvl). Именно такого примера нету, но в Каталоге есть много разных примеров, где используется похожая логика.