Hoppa till huvudinnehåll

Telegram::GroupScraper - Scraper för data från publika grupper i Telegram

Telegram

Översikt över scrapern

Denna scraper samlar in data om meddelanden från offentliga grupper i Telegram. Telegram grupp/chat-scraper utför insamling av medlemmar som har skrivit något i gruppen, eller där det finns ett servicemeddelande om att de gått med i gruppen. Du kan skrapa allt innehåll från de önskade grupperna, nämligen: text, bilder, videolänkar, samt få information om publiceringsdatum, författare (namn, länk till profil, avatar).

Dess arbetslogik skiljer sig från andra scrapers eftersom den automatiskt lägger till frågor för att gå igenom alla meddelanden i gruppen. På grund av detta kan denna scraper inte användas tillsammans med några andra i samma uppgift.

Resultaten kan sparas i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Användningsfall för scrapern

Insamlade data

Nedan visas de data som kan samlas in separat för offentliga Telegram-kanaler och Telegram-grupper.

Vad som kan samlas in för Telegram-kanaler

Endast för öppna (offentliga) Telegram-kanaler är följande data tillgängliga:

  • Länk till meddelande
  • Meddelandetext
  • Foto i meddelandet
  • Video i meddelandet
  • Meddelandedatum

Vad som kan samlas in för Telegram-grupper

Endast för öppna (offentliga) Telegram-grupper är följande data tillgängliga:

  • Länk till meddelande
  • Författarens namn
  • Länk till författarens profil
  • Författarens avatar
  • Meddelandetext
  • Foto i meddelandet
  • Video i meddelandet
  • Meddelandedatum
  • Medlemmar som skrivit i gruppen
  • Medlemmar från servicemeddelanden om anslutning till gruppen

Användningsområden

  • Insamling av lista över gruppmedlemmar
  • Insamling av innehåll från alla meddelanden i gruppen

Frågor

Som frågor måste du ange en länk till en offentlig (öppen) kanal eller grupp, till exempel:

https://t.me/a_parser

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON.

Standardutdata

Resultatformat:

$user_name($user_link): $message_text\n

Exempel på resultat:

(https://t.me/aparser): För att kringgå begränsningen på 10 förfrågningar från en IP måste man dessutom skrapa key= från huvudsidan
(https://t.me/aparser): Ska kolla nu
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Utdata till CSV-tabell

Resultatformat:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Exempel på resultat:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Inställningar - Spara fönsterstorlek"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"jag kör 20 uppgifter med 300 trådar, med en dynamisk gräns på 1200, de körs mycket snabbare eftersom alla arbetar samtidigt och det inte blir stopp när det finns få frågor (trådar) kvar"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"inklusive proxy"

Bearbetning av resultat

A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapning. I det här avsnittet har vi listat de mest populära fallen för Telegram-scrapern.

Filtrering av resultat baserat på ord i meddelandet

Exempel

Du behöver lägga till ett filter och välja $message_text - Message text i rullgardinslistan. Välj typen RegEx match. I fältet för regex skriver du in ett reguljärt uttryck med de nödvändiga orden:

\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDorkar\b

\b - ordgräns

| - ELLER

is - regex-flagga

Ladda ner exempel

Hur man importerar ett exempel i A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Möjliga inställningar

ParameterStandardvärdeBeskrivning
Max empty posts1000Denna parameter anger hur många tomma (icke-existerande) meddelanden i rad som krävs för att dataskrapning för den aktuella frågan ska avbrytas
Start message number1Denna parameter anger från vilket nummer meddelanden ska samlas in i Telegram-chatten