Chuyển đến nội dung chính

Telegram::GroupScraper - Công cụ cào dữ liệu từ các nhóm công khai trên Telegram

Telegram

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu này thu thập dữ liệu tin nhắn từ các nhóm công khai trên Telegram. Công cụ cào dữ liệu nhóm/trò chuyện Telegram thực hiện thu thập những thành viên đã viết nội dung nào đó trong nhóm hoặc có thông báo hệ thống về việc họ tham gia nhóm. Bạn có thể cào dữ liệu tất cả nội dung từ các nhóm cần thiết, cụ thể là: văn bản, hình ảnh, liên kết video, nhận thông tin về ngày đăng, tác giả (tên, liên kết hồ sơ, ảnh đại diện).

Logic hoạt động của nó khác với các công cụ cào dữ liệu khác, vì nó tự động thêm các truy vấn để duyệt qua tất cả tin nhắn trong nhóm. Do đó, không thể sử dụng công cụ cào dữ liệu này cùng với bất kỳ công cụ nào khác trong cùng một tác vụ.

Việc lưu kết quả có thể thực hiện theo hình thức và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp sẵn Template Toolkit cho phép áp dụng thêm logic vào kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Các trường hợp ứng dụng công cụ cào dữ liệu

Dữ liệu thu thập được

Dưới đây là các dữ liệu có thể thu thập riêng biệt cho các kênh Telegram công khai và các nhóm Telegram.

Dữ liệu có thể thu thập cho kênh Telegram

Chỉ dành cho các kênh Telegram mở (công khai), các dữ liệu sau đây có sẵn:

  • Liên kết đến tin nhắn
  • Nội dung tin nhắn
  • Ảnh trong tin nhắn
  • Video trong tin nhắn
  • Ngày gửi tin nhắn

Dữ liệu có thể thu thập cho nhóm Telegram

Chỉ dành cho các nhóm Telegram mở (công khai), các dữ liệu sau đây có sẵn:

  • Liên kết đến tin nhắn
  • Tên tác giả tin nhắn
  • Liên kết đến hồ sơ tác giả
  • Ảnh đại diện của tác giả
  • Nội dung tin nhắn
  • Ảnh trong tin nhắn
  • Video trong tin nhắn
  • Ngày gửi tin nhắn
  • Các thành viên đã viết bài trong nhóm
  • Các thành viên từ thông báo hệ thống về việc tham gia nhóm

Các phương án sử dụng

  • Thu thập danh sách thành viên nhóm
  • Thu thập nội dung của tất cả tin nhắn trong nhóm

Truy vấn

Trong phần truy vấn, bạn cần chỉ định liên kết đến kênh hoặc nhóm công khai (mở), ví dụ:

https://t.me/a_parser

Các ví dụ xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý cũng như dạng có cấu trúc như CSV hoặc JSON

Xuất mặc định

Định dạng kết quả:

$user_name($user_link): $message_text\n

Ví dụ kết quả:

(https://t.me/aparser): Để vượt qua giới hạn 10 truy vấn từ một IP, cần cào dữ liệu thêm key= từ trang chính
(https://t.me/aparser): Để tôi xem thử
(https://t.me/aparser): <a href="http://a-parser.com/threads/1795/" target="_blank" rel="noopener">http://a-parser.com/threads/1795/</a>

Xuất ra bảng CSV

Định dạng kết quả:

[% tools.CSVline(query, user_link, message_date, message_text) %]

Ví dụ kết quả:

https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:01:09+00:00,"Cài đặt - Lưu kích thước cửa sổ"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:14:47+00:00,"tôi chạy 20 tác vụ với 300 luồng, với giới hạn động là 1200, chúng thực hiện nhanh hơn nhiều vì tất cả hoạt động cùng lúc và không bị tắc nghẽn khi còn ít truy vấn (luồng)"
https://t.me/a_parser,https://t.me/Forby403,2016-11-05T05:27:06+00:00,"vâng, bao gồm cả proxy."

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Telegram

Lọc kết quả theo sự xuất hiện của từ trong tin nhắn

Ví dụ

Cần thêm một bộ lọc và chọn trong danh sách thả xuống $message_text - Message text. Chọn loại RegEx match. Trong trường dành cho regex, hãy nhập regex với các từ cần thiết:

\bcông cụ cào dữ liệu\b|\bGoogle\b|\byandex\b|\bcông cụ cào dữ liệu\b|\bProxy\b|\bDork\b

\b - ranh giới từ

| - HOẶC

is - cờ regex

Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJyVVN1v2jAQ/18sHjaJ8qFSacobRaLaxEpX6BOg6oovqVfH9myHgTL+952dkMC6
PewhVu53v/v2uWQe3Jt7sOjQO5asSmbiP0uYR4mZhfyK6+0V7iE3ElmXGbAObeCu
2LKmJMmd1YVZbC0YtETimEIhPeuWzB8MkrdUSB9V5D5oEpajc5Dhs8c9EWvCsmJb
zMFvXwnegSwCsl6/rIvB6DqN5yCco+ocRuSmRtYvv+i70zqTWAsHUBz3tfAfToIw
TFvSNcYTzgw+nVNHLak2gIZElWjjhVZUinDsuNmcOuGm2lKxhHfMsFd3v1EuYIdL
XfUPW3hK0j3koTEdDh6DtpdGRx8+9nxsKHAuQkSQVYQwsjbqkxI/YmOVJi79WoFu
anUeJx8dBPBwym7FOlFm5KKItt8qG5akIB12maNUp0CJ8D81ggYLXtt57ADhJdNq
LOUMdyhbWvR/WwjJ6X6NUzL6XBv+nTJ/5+PYlHceaof2p6UcGi9Rup1/ba24numM
KudhUFLkwpPsJrpQYTADAt8QTdOz+9CzXFtswnhbYBOc1smg4kRsJzY2LXRRxcVU
LsGtVqnI5pS/FRxPzEItaWfnaqLDRoayVCElTcXhY3s7xq6eQhCayt8ZT2KIUPlp
Y5nXWroviypVYwXdvpuQYE6NPI9au9yClE+Ps3MNa28UCa/eG5f0+76XYx+eq/eD
BUOPmaYbRWUdN83D0rxF5b+el6Q80si+u4fKIBQY6IRRp1zcseHxN9yRrow=

Các cài đặt có thể có

Tham sốGiá trị mặc địnhMô tả
Max empty posts1000Tham số này chỉ định số lượng tin nhắn trống (không tồn tại) liên tiếp để việc cào dữ liệu theo truy vấn hiện tại dừng lại
Start message number1Tham số này chỉ định số thứ tự bắt đầu thu thập tin nhắn trong trò chuyện Telegram