Telegram::GroupScraper - Scraper di dati da gruppi pubblici Telegram

Panoramica dello scraper
Questo scraper raccoglie dati sui messaggi dai gruppi pubblici di Telegram. Lo scraper di gruppi/chat Telegram esegue la raccolta degli utenti che hanno scritto qualcosa nel gruppo, o per i quali è presente una notifica di servizio relativa all'adesione al gruppo. È possibile eseguire lo scraping di tutti i contenuti dai gruppi desiderati, ovvero: testo, immagini, link a video, ottenendo informazioni sulla data di pubblicazione, l'autore (nome, link al profilo, avatar).
La sua logica di funzionamento differisce dagli altri scraper, poiché aggiunge automaticamente query per scorrere tutti i messaggi nel gruppo. Per questo motivo, questo scraper non può essere utilizzato insieme ad altri nello stesso task.
Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.
Casi d'uso dello scraper
🔗 Scraping utenti
Scraping degli utenti dai gruppi pubblici di Telegram
🔗 Scraping di tutti i messaggi
Scraping di tutti i messaggi dai gruppi pubblici di Telegram
Dati raccolti
Di seguito sono elencati i dati che possono essere raccolti separatamente per i canali Telegram pubblici e i gruppi Telegram.
Cosa si può raccogliere per i canali Telegram
Solo per i canali Telegram aperti (pubblici) sono disponibili i seguenti dati:
- Link al messaggio
- Testo del messaggio
- Foto del messaggio
- Video del messaggio
- Data del messaggio
Cosa si può raccogliere per i gruppi Telegram
Solo per i gruppi Telegram aperti (pubblici) sono disponibili i seguenti dati:
- Link al messaggio
- Nome dell'autore del messaggio
- Link al profilo dell'autore
- Avatar dell'autore
- Testo del messaggio
- Foto del messaggio
- Video del messaggio
- Data del messaggio
- Partecipanti che hanno scritto nel gruppo
- Partecipanti dalle notifiche di servizio di adesione al gruppo
Casi d'uso
- Raccolta dell'elenco dei membri del gruppo
- Raccolta del contenuto di tutti i messaggi nel gruppo
Query
Come query è necessario indicare il link a un canale o gruppo pubblico (aperto), ad esempio:
https://t.me/a_parser
Esempi di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON
Output predefinito
Formato del risultato:
$user_name($user_link): $message_text\n
Esempio di risultato:
(https://t.me/aparser): Per aggirare il limite di 10 richieste da un singolo IP è necessario eseguire lo scraping aggiuntivo di key= dalla pagina principale
(https://t.me/aparser): Ora controllo
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>
Output in tabella CSV
Formato del risultato:
[% tools.CSVline(query, user_link, message_date, message_text) %]
Esempio di risultato:
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Impostazioni - Salva dimensione finestra"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"lancio 20 task da 300 thread, con limite dinamico a 1200, vengono eseguiti molto più velocemente perché lavorano tutti contemporaneamente e non ci sono blocchi quando rimangono poche query(thread)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"beh proxy inclusi"
Elaborazione dei risultati
A-Parser consente di elaborare i risultati direttamente durante lo scraping; in questa sezione abbiamo riportato i casi più popolari per lo scraper Telegram
Filtrare i risultati per occorrenza di parole nel messaggio

È necessario aggiungere un filtro e selezionare nel menu a discesa $message_text - Message text. Selezionare il tipo RegEx match.
Nel campo per la regex inserire la regex con le parole necessarie:
\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDork\b
\b - confine della parola
| - OPPURE
is - flag della regex
Scarica esempio
Come importare un esempio in A-Parser
eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=
Impostazioni possibili
| Parametro | Valore predefinito | Descrizione |
|---|---|---|
| Max empty posts | 1000 | Questo parametro indica quanti messaggi vuoti (inesistenti) consecutivi devono esserci affinché lo scraping per la query corrente si interrompa |
| Start message number | 1 | Questo parametro indica da quale numero iniziare a raccogliere i messaggi nella chat di Telegram |