день добрый.
есть задача - собирать тг группы определенной страны.
сейчас я паршу гугл запросами вроде intext:t.me/ + различные размножители типа списка ключевиков, {az:a:zzz} и подобных штук. это первое задание.
затем собранные линки передаю в HTML::TextExtractor::LangDetect, в нем фильтрую страницы с неподходящими языками, а с оставшихся регуляркой собираю вот это (?m)(t\.me\/[a-zA-Z0-9\-_\+]*)
это второе.
и третье - передаю собранные линки в NET::HTTP (наверное можно и тот-же HTML::TextExtractor::LangDetect использовать), там с помощью регулярок разбираюсь что за линк - канал, группа, бот, паблик или приват, немного доп инфы типа количества людей в группе, названия и т.п. и в зависимости от того что спарсилось - раскладываю в отдельные файлики результатов.
(на самом деле это пока только план, но с реализацией проблем не вижу. возможно будет и так.)
а объединить 3 и 2 задания можно?
чтобы работало как паук, но не на все подряд ссылки ходило на заданную глубину, а только по тем, которые условиям соответствуют. то есть вот есть линк на страницу от парсера гугла. заходим по этому линку, парсим язык и, регуляркой - все линки на телеграмм. если язык подходящий - то переходим по собранным линкам, регулярками собираем данные и в зависимости от того что собрали - пишем результат в соответствующий файлик.
есть задача - собирать тг группы определенной страны.
сейчас я паршу гугл запросами вроде intext:t.me/ + различные размножители типа списка ключевиков, {az:a:zzz} и подобных штук. это первое задание.
затем собранные линки передаю в HTML::TextExtractor::LangDetect, в нем фильтрую страницы с неподходящими языками, а с оставшихся регуляркой собираю вот это (?m)(t\.me\/[a-zA-Z0-9\-_\+]*)
это второе.
и третье - передаю собранные линки в NET::HTTP (наверное можно и тот-же HTML::TextExtractor::LangDetect использовать), там с помощью регулярок разбираюсь что за линк - канал, группа, бот, паблик или приват, немного доп инфы типа количества людей в группе, названия и т.п. и в зависимости от того что спарсилось - раскладываю в отдельные файлики результатов.
(на самом деле это пока только план, но с реализацией проблем не вижу. возможно будет и так.)
а объединить 3 и 2 задания можно?
чтобы работало как паук, но не на все подряд ссылки ходило на заданную глубину, а только по тем, которые условиям соответствуют. то есть вот есть линк на страницу от парсера гугла. заходим по этому линку, парсим язык и, регуляркой - все линки на телеграмм. если язык подходящий - то переходим по собранным линкам, регулярками собираем данные и в зависимости от того что собрали - пишем результат в соответствующий файлик.