Ga naar de hoofdinhoud

Telegram::GroupScraper - Scraper voor gegevens uit publieke Telegram-groepen

Telegram

Overzicht van de scraper

Deze scraper verzamelt gegevens over berichten uit openbare groepen in Telegram. De Telegram groepen/chats scraper verzamelt deelnemers die iets in de groep hebben geschreven, of voor wie er een servicemelding is over hun deelname aan de groep. U kunt alle content uit de gewenste groepen scrapen, namelijk: tekst, afbeeldingen, links naar video's, informatie over de publicatiedatum en de auteur (naam, profiellink, avatar).

De werkingslogica verschilt van andere scrapers, omdat deze automatisch query's toevoegt om alle berichten in de groep te doorlopen. Daarom kan deze scraper niet samen met andere scrapers in één taak worden gebruikt.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Casussen voor het gebruik van de scraper

Verzamelde gegevens

Hieronder staan de gegevens die afzonderlijk kunnen worden verzameld voor openbare Telegram-kanalen en Telegram-groepen.

Wat kan worden verzameld voor Telegram-kanalen

Alleen voor open (publieke) Telegram-kanalen zijn de volgende gegevens beschikbaar:

  • Link naar het bericht
  • Tekst van het bericht
  • Foto van het bericht
  • Video van het bericht
  • Datum van het bericht

Wat kan worden verzameld voor Telegram-groepen

Alleen voor open (publieke) Telegram-groepen zijn de volgende gegevens beschikbaar:

  • Link naar het bericht
  • Naam van de auteur van het bericht
  • Link naar het profiel van de auteur
  • Avatar van de auteur
  • Tekst van het bericht
  • Foto van het bericht
  • Video van het bericht
  • Datum van het bericht
  • Deelnemers die in de groep hebben geschreven
  • Deelnemers uit servicemeldingen over deelname aan de groep

Toepassingen

  • Verzamelen van een lijst met groepsdeelnemers
  • Verzamelen van de inhoud van alle berichten in de groep

Query's

Als query's moet u een link naar een openbaar (publiek) kanaal of groep opgeven, bijvoorbeeld:

https://t.me/a_parser

Opties voor resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.

Standaarduitvoer

Resultaatformaat:

$user_name($user_link): $message_text\n

Voorbeeld van resultaat:

(https://t.me/aparser): Om de limiet van 10 verzoeken van één IP te omzeilen, moet u bovendien de key= van de hoofdpagina scrapen
(https://t.me/aparser): Ik zal nu kijken
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Uitvoer naar CSV-tabel

Resultaatformaat:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Voorbeeld van resultaat:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Instellingen - Venstergrootte opslaan"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"ik start 20 taken met elk 300 threads, met een dynamische limiet van 1200, ze worden veel sneller uitgevoerd omdat ze allemaal tegelijkertijd werken en er geen opstoppingen zijn wanneer er weinig verzoeken(threads) overblijven"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"nou, inclusief proxy's"

Verwerking van resultaten

A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire casussen voor de Telegram scraper verzameld.

Filteren van resultaten op voorkomen van woorden in het bericht

Voorbeeld

U moet een filter toevoegen en in de vervolgkeuzelijst $message_text - Message text selecteren. Kies het type RegEx match. Voer in het veld voor de regex de regex in met de benodigde woorden:

\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDorks\b

\b - woordgrens

| - OF

is - regex-vlag

Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Mogelijke instellingen

ParameterStandaardwaardeBeschrijving
Max empty posts1000Deze parameter geeft aan hoeveel opeenvolgende lege (niet-bestaande) berichten er moeten zijn voordat de gegevensextractie voor de huidige query stopt
Start message number1Deze parameter geeft aan vanaf welk nummer berichten in de Telegram-chat moeten worden verzameld