Ana içeriğe atla

Telegram::GroupScraper - Telegram'daki halka açık gruplardan veri çekme veri kazıyıcısı

Telegram

Veri Kazıyıcı Genel Bakış

Bu veri kazıyıcı, Telegram'daki herkese açık gruplardan mesaj verilerini toplar. Telegram grup/sohbet veri kazıyıcısı, grupta bir şeyler yazan veya gruba katıldıklarına dair servis bildirimi bulunan üyeleri toplar. İhtiyacınız olan gruplardan tüm içeriği kazıyabilirsiniz: metin, resimler, video bağlantıları; yayın tarihi, yazar (isim, profil bağlantısı, avatar) bilgilerini alabilirsiniz.

Çalışma mantığı diğer veri kazıyıcılardan farklıdır, çünkü bir gruptaki tüm mesajları taramak için otomatik olarak sorgular ekler. Bu nedenle, bu veri kazıyıcı aynı görevde başka herhangi bir veri kazıyıcı ile birlikte kullanılamaz.

Sonuçların ihtiyacınız olan biçimde ve yapıda kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde mümkündür.

Veri Kazıyıcı Kullanım Örnekleri

Toplanan Veriler

Aşağıda, halka açık Telegram kanalları ve Telegram grupları için ayrı ayrı toplanabilecek veriler belirtilmiştir.

Telegram kanalları için neler toplanabilir

Yalnızca açık (herkese açık) Telegram kanalları için aşağıdaki veriler mevcuttur:

  • Mesaj bağlantısı
  • Mesaj metni
  • Mesaj fotoğrafı
  • Mesaj videosu
  • Mesaj tarihi

Telegram grupları için neler toplanabilir

Yalnızca açık (herkese açık) Telegram grupları için aşağıdaki veriler mevcuttur:

  • Mesaj bağlantısı
  • Mesaj yazarının adı
  • Yazarın profil bağlantısı
  • Yazarın avatarı
  • Mesaj metni
  • Mesaj fotoğrafı
  • Mesaj videosu
  • Mesaj tarihi
  • Grupta yazan üyeler
  • Katılım servis bildirimlerindeki üyeler

Kullanım Durumları

  • Grup üyeleri listesinin toplanması
  • Gruptaki tüm mesajların içeriğinin toplanması

Sorgular

Sorgu olarak herkese açık (açık) bir kanalın veya grubun bağlantısını belirtmeniz gerekir, örneğin:

https://t.me/a_parser

Sonuç Çıktı Seçenekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları rastgele bir formda veya CSV veya JSON gibi yapılandırılmış bir biçimde çıktı almasına olanak tanır.

Varsayılan çıktı

Sonuç formatı:

$user_name($user_link): $message_text\n

Sonuç örneği:

(https://t.me/aparser): Bir IP'den 10 sorgu sınırını aşmak için ana sayfadan ayrıca key= kazımak gerekir
(https://t.me/aparser): Şimdi bakıyorum
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

CSV tablosuna çıktı

Sonuç formatı:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Sonuç örneği:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Ayarlar - Pencere boyutunu kaydet"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"300 iş parçacıklı 20 görev çalıştırıyorum, 1200 dinamik limit ile, hepsi aynı anda çalıştığı için çok daha hızlı tamamlanıyorlar ve az sorgu (iş parçacığı) kaldığında takılma olmuyor"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"proxy'ler dahil tabii"

Sonuçların İşlenmesi

A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde Telegram veri kazıyıcı için en popüler durumları sunduk.

Mesajdaki kelime varlığına göre sonuçları filtreleme

Örnek

Bir filtre eklemeniz ve açılır listeden $message_text - Message text seçmeniz gerekir. Tür olarak RegEx match seçin. Regex alanına gerekli kelimeleri içeren regex'i yazın:

\bveri kazıyıcı\b|\bGoogle\b|\byandex\b|\bveri kazıyıcı\b|\bProxy\b|\bDorklar\b

\b - kelime sınırı

| - VEYA

is - regex bayrağı

Örneği indir

A-Parser örnek nasıl içe aktarılır

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Olası Ayarlar

ParametreVarsayılan değerAçıklama
Max empty posts1000Bu parametre, mevcut sorgu için veri çekme işleminin durması için art arda kaç tane boş (mevcut olmayan) mesaj olması gerektiğini belirtir
Start message number1Bu parametre, Telegram sohbetindeki mesajların hangi numaradan itibaren toplanacağını belirtir