Zum Hauptinhalt springen

Telegram::GroupScraper - Parser für Daten aus öffentlichen Telegram-Gruppen

Telegram

Übersicht über den Parser

Dieser Parser sammelt Daten über Nachrichten aus öffentlichen Gruppen in Telegram. Der Telegram Gruppen/Chat-Parser führt die Erfassung von Teilnehmern durch, die etwas in der Gruppe geschrieben haben oder für die eine Systembenachrichtigung über den Beitritt zur Gruppe vorliegt. Sie können den gesamten Inhalt aus den gewünschten Gruppen extrahieren, nämlich: Text, Bilder, Video-Links, Informationen zum Veröffentlichungsdatum sowie zum Autor (Name, Profil-Link, Avatar) erhalten.

Seine Arbeitslogik unterscheidet sich von anderen Scrapern, da er automatisch Abfragen hinzufügt, um alle Nachrichten in der Gruppe zu durchlaufen. Aus diesem Grund kann dieser Parser nicht zusammen mit anderen in einer Aufgabe verwendet werden.

Das Speichern der Ergebnisse ist in der von Ihnen benötigten Form und Struktur möglich, dank der integrierten leistungsstarken Template-Engine Template Toolkit, die es ermöglicht, zusätzliche Logik auf die Ergebnisse anzuwenden und Daten in verschiedenen Formaten auszugeben, einschließlich JSON, SQL und CSV.

Anwendungsbeispiele für den Parser

Gesammelte Daten

Nachfolgend sind die Daten aufgeführt, die separat für öffentliche Telegram-Kanäle und Telegram-Gruppen gesammelt werden können.

Was für Telegram-Kanäle gesammelt werden kann

Nur für offene (öffentliche) Telegram-Kanäle sind folgende Daten verfügbar:

  • Link zur Nachricht
  • Nachrichtentext
  • Foto der Nachricht
  • Video der Nachricht
  • Datum der Nachricht

Was für Telegram-Gruppen gesammelt werden kann

Nur für offene (öffentliche) Telegram-Gruppen sind folgende Daten verfügbar:

  • Link zur Nachricht
  • Name des Autors der Nachricht
  • Link zum Profil des Autors
  • Avatar des Autors
  • Nachrichtentext
  • Foto der Nachricht
  • Video der Nachricht
  • Datum der Nachricht
  • Teilnehmer, die in der Gruppe geschrieben haben
  • Teilnehmer aus Systembenachrichtigungen über den Beitritt zur Gruppe

Anwendungsfälle

  • Erfassung der Teilnehmerliste einer Gruppe
  • Erfassung des Inhalts aller Nachrichten in einer Gruppe

Abfragen

Als Abfragen müssen Links zu öffentlichen (offenen) Kanälen oder Gruppen angegeben werden, zum Beispiel:

https://t.me/a_parser

Ausgabeoptionen für Ergebnisse

A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was es ermöglicht, Ergebnisse in beliebiger Form sowie strukturiert, zum Beispiel als CSV oder JSON, auszugeben.

Standardausgabe

Format des Ergebnisses:

$user_name($user_link): $message_text\n

Beispiel für ein Ergebnis:

(https://t.me/aparser): Um die Beschränkung auf 10 Anfragen von einer IP zu umgehen, muss zusätzlich key= von der Hauptseite geparst werden
(https://t.me/aparser): Ich schaue gleich mal nach
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Ausgabe in eine CSV-Tabelle

Format des Ergebnisses:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Beispiel für ein Ergebnis:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Einstellungen - Fenstergröße speichern"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"ich starte 20 Aufgaben mit jeweils 300 Threads, mit einem dynamischen Limit von 1200, sie werden viel schneller ausgeführt, da alle gleichzeitig arbeiten und es keine Verzögerungen gibt, wenn nur noch wenige Abfragen (Threads) übrig sind"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"nun, Proxys inklusive"

Verarbeitung der Ergebnisse

A-Parser ermöglicht es, Ergebnisse direkt während der Datenerfassung zu verarbeiten. In diesem Abschnitt haben wir die beliebtesten Anwendungsfälle für den Telegram-Parser aufgeführt.

Filtern der Ergebnisse nach Vorkommen von Wörtern in der Nachricht

Beispiel

Es muss ein Filter hinzugefügt und in der Dropdown-Liste $message_text - Message text ausgewählt werden. Wählen Sie den Typ Regulärer Ausdruck stimmt überein. Geben Sie im Feld für den regulären Ausdruck den Ausdruck mit den erforderlichen Wörtern ein:

\bparser\b|\bGoogle\b|\byandex\b|\bparser\b|\bProxy\b|\bDorks\b

\b - Wortgrenze

| - ODER

is - Flag für regulären Ausdruck

Beispiel herunterladen

So importieren Sie ein Beispiel in A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Mögliche Einstellungen

ParameterStandardwertBeschreibung
Max empty posts1000Dieser Parameter gibt an, wie viele leere (nicht existierende) Nachrichten hintereinander folgen müssen, damit die Datenerfassung für die aktuelle Abfrage gestoppt wird
Start message number1Dieser Parameter gibt an, ab welcher Nummer Nachrichten im Telegram-Chat gesammelt werden sollen