Vai al contenuto principale

Reddit::Posts - scraper di post su Reddit

SE::Quora

Panoramica dello scraper Reddit::Posts

Reddit::PostsReddit::Posts - scraper di post su Reddit.

Raccoglie un elenco di messaggi (post) e una vasta gamma di informazioni per ciascuno di essi dal servizio omonimo.

È possibile utilizzare la moltiplicazione automatica delle query, la sostituzione di sotto-query da file, l'iterazione di combinazioni alfanumeriche e liste per ottenere il massimo numero possibile di risultati.

La funzionalità di A-Parser consente di salvare le impostazioni dello scraper Reddit::Posts per un uso futuro (preset), impostare pianificazioni di scraping e molto altro.

Il salvataggio dei risultati è possibile nella forma e struttura necessarie, grazie al potente motore di modelli integrato Template Toolkit che permette di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Dati raccolti

Array di messaggi (post):

  • Link al post
  • Titolo e etichetta (flair)
  • Valutazione, numero di commenti e numero di premi
  • Data di creazione
  • Community in cui è stato pubblicato il post
  • Autore e sua etichetta (flair)
  • Contenuto del post: testo in markdown, link ai contenuti multimediali e link a risorse esterne
  • Se il post è pubblicitario

Funzionalità

  • Specifica del numero di pagine da sottoporre a scraping
  • Specifica del metodo di ordinamento dei risultati
  • Scelta dell'intervallo temporale dei risultati
  • Possibilità di eseguire lo scraping all'interno di una specifica community

Casi d'uso

  • Qualsiasi scenario in cui sia necessario ottenere dati sui messaggi (post) su Reddit

Query

Sono supportate diverse varianti di query:

Esempio:

https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/

Il risultato predefinito visualizzerà un elenco di link ai post, ad esempio:

https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...

Vengono presi in considerazione anche i parametri nei link che indicano il tempo e l'ordinamento dei risultati, mentre quelli impostati nelle impostazioni vengono ignorati. Esempio:

https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month

Il risultato predefinito visualizzerà un elenco di link ai post, ad esempio:

https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...

Parole chiave

Esempio:

wordpress features
parser

Il risultato predefinito visualizzerà un elenco di link ai post, ad esempio:

https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...

Lo scraper supporta la ricerca per parola chiave in una specifica community. Per fare ciò, è necessario specificare nella query la parola chiave e, separata da uno spazio, il link alla community. Esempio:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

Il risultato predefinito visualizzerà un elenco di link ai post, ad esempio:

https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...

Opzioni di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON.

Impostazioni possibili

ParametroValore predefinitoDescrizione
Pages count5Numero di pagine dei risultati
SortRelevanceOrdinamento dei risultati
TimeAll timeIntervallo temporale dei risultati
Use HTTP/2 transportDetermina se utilizzare HTTP/2 invece di HTTP/1.1