Telegram::GroupScraper - Scraper de dados de grupos públicos no Telegram

Visão geral do scraper
Este scraper coleta dados de mensagens de grupos públicos no Telegram. O scraper de grupos/chats do Telegram realiza a coleta de participantes que escreveram algo no grupo ou para os quais existe uma notificação de serviço sobre sua entrada no grupo. Você pode extrair todo o conteúdo dos grupos desejados, especificamente: texto, imagens, links de vídeo, obter informações sobre a data de publicação, autor (nome, link do perfil, avatar).
Sua lógica de funcionamento difere de outros scrapers, pois ele adiciona automaticamente consultas para percorrer todas as mensagens do grupo. Por esse motivo, este scraper não pode ser usado junto com nenhum outro na mesma tarefa.
A preservação dos resultados é possível no formato e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.
Casos de uso do scraper
🔗 Extração de usuários
Extração de usuários de grupos públicos no Telegram
🔗 Extração de todas as mensagens
Extração de todas as mensagens de grupos públicos no Telegram
Dados coletados
Abaixo estão listados os dados que podem ser coletados separadamente para canais do Telegram e grupos do Telegram públicos.
O que pode ser coletado para canais do Telegram
Apenas para canais do Telegram abertos (públicos), os seguintes dados estão disponíveis:
- Link da mensagem
- Texto da mensagem
- Foto da mensagem
- Vídeo da mensagem
- Data da mensagem
O que pode ser coletado para grupos do Telegram
Apenas para grupos do Telegram abertos (públicos), os seguintes dados estão disponíveis:
- Link da mensagem
- Nome do autor da mensagem
- Link do perfil do autor
- Avatar do autor
- Texto da mensagem
- Foto da mensagem
- Vídeo da mensagem
- Data da mensagem
- Participantes que escreveram no grupo
- Participantes de notificações de serviço sobre entrada no grupo
Opções de uso
- Coleta de lista de participantes do grupo
- Coleta do conteúdo de todas as mensagens do grupo
Consultas
Como consultas, é necessário indicar o link para o canal ou grupo público (aberto), por exemplo:
https://t.me/a_parser
Opções de exibição de resultados
O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados de forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON.
Saída padrão
Formato do resultado:
$user_name($user_link): $message_text\n
Exemplo de resultado:
(https://t.me/aparser): Para contornar o limite de 10 consultas de um único IP, é necessário extrair adicionalmente o key= da página principal
(https://t.me/aparser): Vou verificar agora
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>
Saída em tabela CSV
Formato do resultado:
[% tools.CSVline(query, user_link, message_date, message_text) %]
Exemplo de resultado:
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Configurações - Salvar tamanho da janela"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"eu executo 20 tarefas com 300 threads cada, com limite dinâmico de 1200, elas são concluídas muito mais rápido porque todas funcionam simultaneamente e não há travamentos quando restam poucas consultas(threads)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"bem, proxies inclusive."
Processamento de resultados
O A-Parser permite processar os resultados diretamente durante a extração de dados; nesta seção, apresentamos os casos mais populares para o scraper do Telegram.
Filtragem de resultados por ocorrência de palavras na mensagem

É necessário adicionar um filtro e selecionar no menu suspenso $message_text - Message text. Selecionar o tipo RegEx match.
No campo para regex, insira a expressão regular com as palavras necessárias:
\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDorks\b
\b - limite de palavra
| - OU
is - flag da regex
Baixar exemplo
Como importar um exemplo para o A-Parser
eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=
Veja também:
Configurações possíveis
| Parâmetro | Valor padrão | Descrição |
|---|---|---|
| Max empty posts | 1000 | Este parâmetro indica quantas mensagens vazias (inexistentes) consecutivas devem ocorrer para que a extração de dados da consulta atual pare |
| Start message number | 1 | Este parâmetro indica a partir de qual número coletar mensagens no chat do Telegram |