Vai al contenuto principale

Telegram::GroupScraper - Scraper di dati da gruppi pubblici Telegram

Telegram

Panoramica dello scraper

Questo scraper raccoglie dati sui messaggi dai gruppi pubblici di Telegram. Lo scraper di gruppi/chat Telegram esegue la raccolta degli utenti che hanno scritto qualcosa nel gruppo, o per i quali è presente una notifica di servizio relativa all'adesione al gruppo. È possibile eseguire lo scraping di tutti i contenuti dai gruppi desiderati, ovvero: testo, immagini, link a video, ottenendo informazioni sulla data di pubblicazione, l'autore (nome, link al profilo, avatar).

La sua logica di funzionamento differisce dagli altri scraper, poiché aggiunge automaticamente query per scorrere tutti i messaggi nel gruppo. Per questo motivo, questo scraper non può essere utilizzato insieme ad altri nello stesso task.

Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Casi d'uso dello scraper

Dati raccolti

Di seguito sono elencati i dati che possono essere raccolti separatamente per i canali Telegram pubblici e i gruppi Telegram.

Cosa si può raccogliere per i canali Telegram

Solo per i canali Telegram aperti (pubblici) sono disponibili i seguenti dati:

  • Link al messaggio
  • Testo del messaggio
  • Foto del messaggio
  • Video del messaggio
  • Data del messaggio

Cosa si può raccogliere per i gruppi Telegram

Solo per i gruppi Telegram aperti (pubblici) sono disponibili i seguenti dati:

  • Link al messaggio
  • Nome dell'autore del messaggio
  • Link al profilo dell'autore
  • Avatar dell'autore
  • Testo del messaggio
  • Foto del messaggio
  • Video del messaggio
  • Data del messaggio
  • Partecipanti che hanno scritto nel gruppo
  • Partecipanti dalle notifiche di servizio di adesione al gruppo

Casi d'uso

  • Raccolta dell'elenco dei membri del gruppo
  • Raccolta del contenuto di tutti i messaggi nel gruppo

Query

Come query è necessario indicare il link a un canale o gruppo pubblico (aperto), ad esempio:

https://t.me/a_parser

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Output predefinito

Formato del risultato:

$user_name($user_link): $message_text\n

Esempio di risultato:

(https://t.me/aparser): Per aggirare il limite di 10 richieste da un singolo IP è necessario eseguire lo scraping aggiuntivo di key= dalla pagina principale
(https://t.me/aparser): Ora controllo
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Output in tabella CSV

Formato del risultato:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Esempio di risultato:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Impostazioni - Salva dimensione finestra"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"lancio 20 task da 300 thread, con limite dinamico a 1200, vengono eseguiti molto più velocemente perché lavorano tutti contemporaneamente e non ci sono blocchi quando rimangono poche query(thread)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"beh proxy inclusi"

Elaborazione dei risultati

A-Parser consente di elaborare i risultati direttamente durante lo scraping; in questa sezione abbiamo riportato i casi più popolari per lo scraper Telegram

Filtrare i risultati per occorrenza di parole nel messaggio

Esempio

È necessario aggiungere un filtro e selezionare nel menu a discesa $message_text - Message text. Selezionare il tipo RegEx match. Nel campo per la regex inserire la regex con le parole necessarie:

\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDork\b

\b - confine della parola

| - OPPURE

is - flag della regex

Scarica esempio

Come importare un esempio in A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Impostazioni possibili

ParametroValore predefinitoDescrizione
Max empty posts1000Questo parametro indica quanti messaggi vuoti (inesistenti) consecutivi devono esserci affinché lo scraping per la query corrente si interrompa
Start message number1Questo parametro indica da quale numero iniziare a raccogliere i messaggi nella chat di Telegram