Chuyển đến nội dung chính

Reddit::Posts - công cụ cào dữ liệu bài viết trên Reddit

SE::Quora

Tổng quan về công cụ cào dữ liệu Reddit::Posts

Reddit::PostsReddit::Posts - công cụ cào dữ liệu bài viết trên Reddit.

Thu thập danh sách tin nhắn (bài đăng) và nhiều thông tin cho mỗi bài đăng từ dịch vụ cùng tên.

Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn con từ tệp, lặp qua các tổ hợp chữ cái-số và danh sách để có được số lượng kết quả tối đa có thể.

Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu Reddit::Posts để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở các định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

Mảng các tin nhắn (bài đăng):

  • Liên kết đến bài đăng
  • Tiêu đề và nhãn (flair)
  • Xếp hạng, số lượng bình luận và số lượng giải thưởng
  • Ngày tạo
  • Cộng đồng nơi bài đăng được xuất bản
  • Tác giả và nhãn của họ (flair)
  • Nội dung bài đăng: văn bản định dạng markdown, liên kết đến nội dung đa phương tiện và liên kết đến tài nguyên bên ngoài
  • Bài đăng có phải là quảng cáo hay không

Tính năng

  • Chỉ định số lượng trang để cào dữ liệu
  • Chỉ định phương thức sắp xếp kết quả
  • Chọn khoảng thời gian của kết quả
  • Khả năng cào dữ liệu bên trong một cộng đồng cụ thể

Trường hợp sử dụng

  • Bất kỳ kịch bản nào cần lấy dữ liệu về các tin nhắn (bài đăng) trên Reddit

Truy vấn

Hỗ trợ một số tùy chọn truy vấn:

Liên kết đến chủ đề (topic)

Ví dụ:

https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/

Kết quả mặc định sẽ hiển thị danh sách các liên kết đến bài đăng, ví dụ:

https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...

Liên kết đến cộng đồng

Các tham số trong liên kết chỉ định thời gian và cách sắp xếp kết quả cũng được tính đến, trong khi các cài đặt trong cấu hình sẽ bị bỏ qua. Ví dụ:

https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month

Kết quả mặc định sẽ hiển thị danh sách các liên kết đến bài đăng, ví dụ:

https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...

Từ khóa

Ví dụ:

wordpress features
parser

Kết quả mặc định sẽ hiển thị danh sách các liên kết đến bài đăng, ví dụ:

https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...

Từ khóa và liên kết đến cộng đồng

Công cụ cào dữ liệu hỗ trợ tìm kiếm theo từ khóa trong một cộng đồng cụ thể. Để làm điều này, trong truy vấn cần chỉ định từ khóa và sau một khoảng trắng là liên kết đến cộng đồng. Ví dụ:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

Kết quả mặc định sẽ hiển thị danh sách các liên kết đến bài đăng, ví dụ:

https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...

Các tùy chọn xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý, cũng như có cấu trúc như CSV hoặc JSON.

Các cài đặt có thể

Tham sốGiá trị mặc địnhMô tả
Pages count5Số lượng trang kết quả
SortRelevanceSắp xếp kết quả
TimeAll timeThời gian của kết quả
Use HTTP/2 transportXác định xem có sử dụng HTTP/2 thay vì HTTP/1.1 hay không