Chuyển đến nội dung chính

Reddit::PostInfo - công cụ cào dữ liệu thông tin bài viết trên Reddit

SE::Quora

Tổng quan về công cụ cào dữ liệu Reddit::PostInfo

Reddit::PostInfoReddit::PostInfo - công cụ cào dữ liệu thông tin bài viết trên Reddit.

Thu thập thông tin về bài đăng, bao gồm cả các bình luận.

Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn con từ tệp, quét qua các tổ hợp chữ-số và danh sách để thu được số lượng kết quả tối đa có thể.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của Reddit::PostInfo để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện theo định dạng và cấu trúc mà bạn cần, nhờ vào bộ máy xử lý mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung vào kết quả và xuất dữ liệu dưới nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Liên kết đến bài đăng
  • Tiêu đề và nhãn (flair)
  • Xếp hạng, số lượng bình luận và số lượng giải thưởng
  • Ngày tạo
  • Cộng đồng nơi bài đăng được xuất bản
  • Tác giả và nhãn của tác giả (flair)
  • Nội dung bài đăng: văn bản định dạng markdown, liên kết đến nội dung đa phương tiện và liên kết đến tài nguyên bên ngoài
  • Bài đăng có phải là quảng cáo hay không

Mảng các bình luận:

  • ID
  • ID cha
  • Liên kết
  • Tác giả
  • Văn bản (đã loại bỏ thẻ)
  • Văn bản (còn thẻ)

Tính năng

  • Khả năng giới hạn số lượng bình luận để cào dữ liệu

Truy vấn

Hỗ trợ một loại truy vấn:

Liên kết đến bài đăng

Ví dụ:

https://www.reddit.com/r/Audi/comments/151atr5/audi_r8_high_speed_crash_294_km/
https://www.reddit.com/r/Lexus/comments/1dc7r2m/anyone_come_from_audi_to_lexus/

Theo mặc định, kết quả sẽ hiển thị thông tin về bài đăng mà không có bình luận

Các tùy chọn xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào bộ máy xử lý mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý, cũng như dưới dạng cấu trúc như CSV hoặc JSON.

Các cài đặt có thể thiết lập

Tham sốGiá trị mặc địnhMô tả
Max comments count50Số lượng bình luận để cào dữ liệu