Telegram::GroupScraper - Scraper för data från publika grupper i Telegram

Översikt över scrapern
Denna scraper samlar in data om meddelanden från offentliga grupper i Telegram. Telegram grupp/chat-scraper utför insamling av medlemmar som har skrivit något i gruppen, eller där det finns ett servicemeddelande om att de gått med i gruppen. Du kan skrapa allt innehåll från de önskade grupperna, nämligen: text, bilder, videolänkar, samt få information om publiceringsdatum, författare (namn, länk till profil, avatar).
Dess arbetslogik skiljer sig från andra scrapers eftersom den automatiskt lägger till frågor för att gå igenom alla meddelanden i gruppen. På grund av detta kan denna scraper inte användas tillsammans med några andra i samma uppgift.
Resultaten kan sparas i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.
Användningsfall för scrapern
🔗 Dataskrapning av användare
Dataskrapning av användare i offentliga grupper på Telegram
🔗 Dataskrapning av alla meddelanden
Dataskrapning av alla meddelanden från offentliga grupper på Telegram
Insamlade data
Nedan visas de data som kan samlas in separat för offentliga Telegram-kanaler och Telegram-grupper.
Vad som kan samlas in för Telegram-kanaler
Endast för öppna (offentliga) Telegram-kanaler är följande data tillgängliga:
- Länk till meddelande
- Meddelandetext
- Foto i meddelandet
- Video i meddelandet
- Meddelandedatum
Vad som kan samlas in för Telegram-grupper
Endast för öppna (offentliga) Telegram-grupper är följande data tillgängliga:
- Länk till meddelande
- Författarens namn
- Länk till författarens profil
- Författarens avatar
- Meddelandetext
- Foto i meddelandet
- Video i meddelandet
- Meddelandedatum
- Medlemmar som skrivit i gruppen
- Medlemmar från servicemeddelanden om anslutning till gruppen
Användningsområden
- Insamling av lista över gruppmedlemmar
- Insamling av innehåll från alla meddelanden i gruppen
Frågor
Som frågor måste du ange en länk till en offentlig (öppen) kanal eller grupp, till exempel:
https://t.me/a_parser
Exempel på resultatutdata
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON.
Standardutdata
Resultatformat:
$user_name($user_link): $message_text\n
Exempel på resultat:
(https://t.me/aparser): För att kringgå begränsningen på 10 förfrågningar från en IP måste man dessutom skrapa key= från huvudsidan
(https://t.me/aparser): Ska kolla nu
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>
Utdata till CSV-tabell
Resultatformat:
[% tools.CSVline(query, user_link, message_date, message_text) %]
Exempel på resultat:
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Inställningar - Spara fönsterstorlek"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"jag kör 20 uppgifter med 300 trådar, med en dynamisk gräns på 1200, de körs mycket snabbare eftersom alla arbetar samtidigt och det inte blir stopp när det finns få frågor (trådar) kvar"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"inklusive proxy"
Bearbetning av resultat
A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapning. I det här avsnittet har vi listat de mest populära fallen för Telegram-scrapern.
Filtrering av resultat baserat på ord i meddelandet

Du behöver lägga till ett filter och välja $message_text - Message text i rullgardinslistan. Välj typen RegEx match.
I fältet för regex skriver du in ett reguljärt uttryck med de nödvändiga orden:
\bscraper\b|\bGoogle\b|\byandex\b|\bscraper\b|\bProxy\b|\bDorkar\b
\b - ordgräns
| - ELLER
is - regex-flagga
Ladda ner exempel
Hur man importerar ett exempel i A-Parser
eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=
Möjliga inställningar
| Parameter | Standardvärde | Beskrivning |
|---|---|---|
| Max empty posts | 1000 | Denna parameter anger hur många tomma (icke-existerande) meddelanden i rad som krävs för att dataskrapning för den aktuella frågan ska avbrytas |
| Start message number | 1 | Denna parameter anger från vilket nummer meddelanden ska samlas in i Telegram-chatten |