Reddit::Comments - công cụ cào dữ liệu bình luận trên Reddit

Tổng quan về công cụ cào dữ liệu Reddit::Comments
Reddit::Comments - công cụ cào dữ liệu tin nhắn trên Reddit.Thu thập danh sách bình luận và nhiều thông tin cho mỗi bình luận từ dịch vụ cùng tên.
Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn con từ tệp, lặp qua các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể.
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu Reddit::Posts để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ máy xử lý mẫu mạnh mẽ được tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở các định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
Mảng các bình luận:
- Liên kết đến bình luận
- Nội dung bình luận (định dạng markdown)
- Xếp hạng và số lượng giải thưởng
- Ngày tạo bình luận
- Tác giả bình luận và nhãn của họ (flair)
- Liên kết đến bài đăng mà bình luận này thuộc về
- Tiêu đề bài đăng và nhãn của nó (flair)
- Xếp hạng bài đăng, số lượng bình luận và số lượng giải thưởng
- Ngày tạo bài đăng
- Cộng đồng nơi bài đăng được xuất bản
- Tác giả bài đăng và nhãn của họ (flair)
- Nội dung bài đăng: văn bản markdown, liên kết đến nội dung đa phương tiện và liên kết đến tài nguyên bên ngoài
Tính năng
- Chỉ định số lượng trang để cào dữ liệu
- Chỉ định phương thức sắp xếp kết quả
- Khả năng cào dữ liệu bên trong một cộng đồng cụ thể
Các trường hợp sử dụng
- Bất kỳ kịch bản nào yêu cầu thu thập các bình luận được để lại dưới các bài đăng trên Reddit
Truy vấn
Hỗ trợ 2 tùy chọn truy vấn:
Từ khóa
Ví dụ:
wordpress features
parser
Kết quả mặc định sẽ hiển thị danh sách các liên kết đến bình luận, ví dụ:
https://www.reddit.com/r/node/comments/14lmqbq/how_to_work_with_xlsx_files/jpy3r5a/
https://www.reddit.com/r/StardewValley/comments/14qidly/having_problems_installing_stardew_valley/jqnalwz/
https://www.reddit.com/r/elasticsearch/comments/14pr86i/how_to_parsing_this_lin_logstash/jqkstjw/
https://www.reddit.com/r/vexillology/comments/14fh5th/flag_of_riga_michigan/jp10w17/
https://www.reddit.com/r/Marvel/comments/14otc3t/hank_pym_is_a_really_humble_guy_the_mighty/jqf27xy/
https://www.reddit.com/r/math/comments/14p1lkg/from_the_perspective_of_you_mathematicians_what/jqgug4q/
https://www.reddit.com/r/Wordpress/comments/14okx06/help_looking_for_a_specific_plugin_for_booking/jqhwtu5/
https://www.reddit.com/r/osr/comments/13u8g7s/difference_between_whitebox_whitehack/jlzhthi/
...
Từ khóa và liên kết đến cộng đồng
Công cụ cào dữ liệu hỗ trợ tìm kiếm theo từ khóa trong một cộng đồng nhất định. Để thực hiện việc này, trong truy vấn cần chỉ định từ khóa và liên kết đến cộng đồng cách nhau bởi dấu cách. Ví dụ:
jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/
Kết quả mặc định sẽ hiển thị danh sách các liên kết đến bài đăng, ví dụ:
https://www.reddit.com/r/atheism/comments/14dp1rv/sen_josh_hawley_shares_his_mindblowingly_stupid/jor20zd/
https://www.reddit.com/r/atheism/comments/14kt69e/why_do_my_christian_friends_view_my_atheism_as_an/jpsgbe5/
https://www.reddit.com/r/atheism/comments/14p6yir/finally_happened_the_one_babysitter_we_can_get/jqhk48s/
https://www.reddit.com/r/Audi/comments/14nyn9m/excuse_me_we_late/jqbdu2a/
https://www.reddit.com/r/Audi/comments/14oqxce/talk_me_inout_of_buying_this_gorgeous_audi_s5/jqev0p6/
https://www.reddit.com/r/Audi/comments/14pqr8a/is_this_a_good_deal_in_your_guys_opinions/jql4wnb/
...
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào bộ máy xử lý mẫu Template Toolkit được tích hợp sẵn, cho phép xuất kết quả dưới dạng tùy ý, cũng như các dạng có cấu trúc như CSV hoặc JSON.
Các cài đặt có thể thiết lập
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Pages count | 5 | Số lượng trang kết quả |
| Sort | Relevance | Sắp xếp kết quả |