Pular para o conteúdo principal

Telegram::GroupScraper - Scraper de dados de grupos públicos no Telegram

Telegram

Visão geral do scraper

Este scraper coleta dados de mensagens de grupos públicos no Telegram. O scraper de grupos/chats do Telegram realiza a coleta de participantes que escreveram algo no grupo ou para os quais existe uma notificação de serviço sobre sua entrada no grupo. Você pode extrair todo o conteúdo dos grupos desejados, especificamente: texto, imagens, links de vídeo, obter informações sobre a data de publicação, autor (nome, link do perfil, avatar).

Sua lógica de funcionamento difere de outros scrapers, pois ele adiciona automaticamente consultas para percorrer todas as mensagens do grupo. Por esse motivo, este scraper não pode ser usado junto com nenhum outro na mesma tarefa.

A preservação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Casos de uso do scraper

Dados coletados

Abaixo estão listados os dados que podem ser coletados separadamente para canais do Telegram e grupos do Telegram públicos.

O que pode ser coletado para canais do Telegram

Apenas para canais do Telegram abertos (públicos), os seguintes dados estão disponíveis:

  • Link da mensagem
  • Texto da mensagem
  • Foto da mensagem
  • Vídeo da mensagem
  • Data da mensagem

O que pode ser coletado para grupos do Telegram

Apenas para grupos do Telegram abertos (públicos), os seguintes dados estão disponíveis:

  • Link da mensagem
  • Nome do autor da mensagem
  • Link do perfil do autor
  • Avatar do autor
  • Texto da mensagem
  • Foto da mensagem
  • Vídeo da mensagem
  • Data da mensagem
  • Participantes que escreveram no grupo
  • Participantes de notificações de serviço sobre entrada no grupo

Opções de uso

  • Coleta de lista de participantes do grupo
  • Coleta do conteúdo de todas as mensagens do grupo

Consultas

Como consultas, é necessário indicar o link para o canal ou grupo público (aberto), por exemplo:

https://t.me/a_parser

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados de forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON.

Saída padrão

Formato do resultado:

$user_name($user_link): $message_text\n

Exemplo de resultado:

(https://t.me/aparser): Para contornar o limite de 10 consultas de um único IP, é necessário extrair adicionalmente o key= da página principal
(https://t.me/aparser): Vou verificar agora
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Saída em tabela CSV

Formato do resultado:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Exemplo de resultado:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Configurações - Salvar tamanho da janela"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"eu executo 20 tarefas com 300 threads cada, com limite dinâmico de 1200, elas são concluídas muito mais rápido porque todas funcionam simultaneamente e não há travamentos quando restam poucas consultas(threads)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"bem, proxies inclusive."

Processamento de resultados

O A-Parser permite processar os resultados diretamente durante a extração de dados; nesta seção, apresentamos os casos mais populares para o scraper do Telegram.

Filtragem de resultados por ocorrência de palavras na mensagem

Exemplo

É necessário adicionar um filtro e selecionar no menu suspenso $message_text - Message text. Selecionar o tipo RegEx match. No campo para regex, insira a expressão regular com as palavras necessárias:

\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDorks\b

\b - limite de palavra

| - OU

is - flag da regex

Baixar exemplo

Como importar um exemplo para o A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Configurações possíveis

ParâmetroValor padrãoDescrição
Max empty posts1000Este parâmetro indica quantas mensagens vazias (inexistentes) consecutivas devem ocorrer para que a extração de dados da consulta atual pare
Start message number1Este parâmetro indica a partir de qual número coletar mensagens no chat do Telegram