Passer au contenu principal

Telegram::GroupScraper - Scraper de données des groupes publics Telegram

Telegram

Présentation du scraper

Ce scraper collecte des données sur les messages à partir de groupes publics dans Telegram. Le scraper de groupes/chats Telegram effectue la collecte des membres qui ont écrit quelque chose dans le groupe, ou pour lesquels il existe une notification système de leur adhésion au groupe. Vous pouvez collecter tout le contenu des groupes souhaités, à savoir : texte, images, liens vidéo, obtenir des informations sur la date de publication, l'auteur (nom, lien vers le profil, avatar).

Sa logique de fonctionnement diffère des autres scrapers, car il ajoute automatiquement des requêtes pour parcourir tous les messages du groupe. Pour cette raison, ce scraper ne peut pas être utilisé avec d'autres dans une même tâche.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV.

Cas d'utilisation du scraper

Données collectées

Ci-dessous sont indiquées les données qui peuvent être collectées séparément pour les canaux Telegram publics et les groupes Telegram.

Ce qui peut être collecté pour les canaux Telegram

Uniquement pour les canaux Telegram ouverts (publics), les données suivantes sont disponibles :

  • Lien vers le message
  • Texte du message
  • Photo du message
  • Vidéo du message
  • Date du message

Ce qui peut être collecté pour les groupes Telegram

Uniquement pour les groupes Telegram ouverts (publics), les données suivantes sont disponibles :

  • Lien vers le message
  • Nom de l'auteur du message
  • Lien vers le profil de l'auteur
  • Avatar de l'auteur
  • Texte du message
  • Photo du message
  • Vidéo du message
  • Date du message
  • Membres ayant écrit dans le groupe
  • Membres issus des notifications système d'adhésion au groupe

Cas d'utilisation

  • Collecte de la liste des membres du groupe
  • Collecte du contenu de tous les messages du groupe

Requêtes

En tant que requêtes, il est nécessaire d'indiquer le lien vers le canal ou le groupe public (ouvert), par exemple :

https://t.me/a_parser

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, par exemple CSV ou JSON.

Affichage par défaut

Format du résultat :

$user_name($user_link): $message_text\n

Exemple de résultat :

(https://t.me/aparser): Pour contourner la limite de 10 requêtes par IP, il faut parser en plus key= depuis la page principale
(https://t.me/aparser): Je vais regarder
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Affichage dans un tableau CSV

Format du résultat :

[% tools.CSVline(query, user_link, message_date, message_text) %]

Exemple de résultat :

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Paramètres - Enregistrer la taille de la fenêtre"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"je lance 20 tâches de 300 threads, avec une limite dynamique de 1200, elles s'exécutent beaucoup plus vite car elles travaillent toutes simultanément et il n'y a pas de blocages quand il reste peu de requêtes (threads)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"enfin les proxies y compris"

Traitement des résultats

A-Parser permet de traiter les résultats directement pendant la collecte de données, dans cette section nous avons listé les cas les plus populaires pour le scraper Telegram.

Filtrage des résultats par présence de mots dans le message

Exemple

Il est nécessaire d'ajouter un filtre et de choisir dans la liste déroulante $message_text - Message text. Choisir le type Regex correspond. Dans le champ pour la regex, inscrire la regex avec les mots nécessaires :

\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDorks\b

\b - limite de mot

| - OU

is - drapeau de la regex

Télécharger l'exemple

Comment importer l'exemple dans A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Paramètres possibles

ParamètreValeur par défautDescription
Max empty posts1000Ce paramètre indique combien de messages vides (inexistants) consécutifs doivent être rencontrés pour que la collecte s'arrête pour la requête actuelle
Start message number1Ce paramètre indique à partir de quel numéro collecter les messages dans le chat Telegram