можно ли объединить 2 задания в одно?

  • Автор темы Автор темы Mater
  • Дата начала Дата начала

Mater

A-Parser Pro License
A-Parser Pro
день добрый.
есть задача - собирать тг группы определенной страны.
сейчас я паршу гугл запросами вроде intext:t.me/ + различные размножители типа списка ключевиков, {az:a:zzz} и подобных штук. это первое задание.

затем собранные линки передаю в HTML::TextExtractor::LangDetect, в нем фильтрую страницы с неподходящими языками, а с оставшихся регуляркой собираю вот это (?m)(t\.me\/[a-zA-Z0-9\-_\+]*)
это второе.

и третье - передаю собранные линки в NET::HTTP (наверное можно и тот-же HTML::TextExtractor::LangDetect использовать), там с помощью регулярок разбираюсь что за линк - канал, группа, бот, паблик или приват, немного доп инфы типа количества людей в группе, названия и т.п. и в зависимости от того что спарсилось - раскладываю в отдельные файлики результатов.
(на самом деле это пока только план, но с реализацией проблем не вижу. возможно будет и так.)

а объединить 3 и 2 задания можно?
чтобы работало как паук, но не на все подряд ссылки ходило на заданную глубину, а только по тем, которые условиям соответствуют. то есть вот есть линк на страницу от парсера гугла. заходим по этому линку, парсим язык и, регуляркой - все линки на телеграмм. если язык подходящий - то переходим по собранным линкам, регулярками собираем данные и в зависимости от того что собрали - пишем результат в соответствующий файлик.
 
Добрый день
Все это почти наверняка можно объединить в один парсер. Для этого нужно создать JS парсер и в нем прописать всю необходимую логику, используя многоуровневый парсинг и выполняя нужные действия в зависимости от уровня запроса (переменная set.lvl). Именно такого примера нету, но в Каталоге есть много разных примеров, где используется похожая логика.
 
Назад
Верх