Vai al contenuto principale

Reddit::Comments - scraper di commenti su Reddit

SE::Quora

Panoramica dello scraper Reddit::Comments

Reddit::CommentsReddit::Comments - scraper di commenti su Reddit.

Raccoglie un elenco di commenti e una moltitudine di informazioni per ciascuno di essi dall'omonimo servizio.

È possibile utilizzare la generazione automatica delle query, la sostituzione di sotto-query da file, l'iterazione di combinazioni alfanumeriche e di elenchi per ottenere il massimo numero possibile di risultati.

Le funzionalità di A-Parser consentono di salvare le impostazioni di scraping dello scraper Reddit::Posts per un uso futuro (preset), impostare pianificazioni di scraping e molto altro.

Il salvataggio dei risultati è possibile nella forma e nella struttura desiderata, grazie al potente motore di modelli integrato Template Toolkit che permette di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, inclusi JSON, SQL e CSV.

Dati raccolti

Array di commenti:

  • Link al commento
  • Contenuto del commento (in markdown)
  • Valutazione e numero di premi (awards)
  • Data di creazione del commento
  • Autore del commento e la sua etichetta (flair)
  • Link al post a cui si riferisce il commento
  • Titolo del post e la sua etichetta (flair)
  • Valutazione del post, numero di commenti e numero di premi
  • Data di creazione del post
  • Community in cui è stato pubblicato il post
  • Autore del post e la sua etichetta (flair)
  • Contenuto del post: testo in markdown, link al contenuto multimediale e link a risorse esterne

Funzionalità

  • Specifica del numero di pagine per lo scraping
  • Specifica del metodo di ordinamento dei risultati
  • Possibilità di eseguire lo scraping all'interno di una specifica community

Casi d'uso

  • Qualsiasi scenario in cui sia necessario raccogliere commenti lasciati ai messaggi su Reddit

Query

Sono supportate 2 varianti di query:

Parole chiave

Esempio:

wordpress features
parser

Nel risultato predefinito verrà visualizzato un elenco di link ai commenti, ad esempio:

https://www.reddit.com/r/node/comments/14lmqbq/how_to_work_with_xlsx_files/jpy3r5a/
https://www.reddit.com/r/StardewValley/comments/14qidly/having_problems_installing_stardew_valley/jqnalwz/
https://www.reddit.com/r/elasticsearch/comments/14pr86i/how_to_parsing_this_lin_logstash/jqkstjw/
https://www.reddit.com/r/vexillology/comments/14fh5th/flag_of_riga_michigan/jp10w17/
https://www.reddit.com/r/Marvel/comments/14otc3t/hank_pym_is_a_really_humble_guy_the_mighty/jqf27xy/
https://www.reddit.com/r/math/comments/14p1lkg/from_the_perspective_of_you_mathematicians_what/jqgug4q/
https://www.reddit.com/r/Wordpress/comments/14okx06/help_looking_for_a_specific_plugin_for_booking/jqhwtu5/
https://www.reddit.com/r/osr/comments/13u8g7s/difference_between_whitebox_whitehack/jlzhthi/
...

Lo scraper supporta la ricerca per parola chiave in una specifica community. Per fare ciò, nella query è necessario indicare la parola chiave e, separata da uno spazio, il link alla community. Esempio:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

Nel risultato predefinito verrà visualizzato un elenco di link ai post, ad esempio:

https://www.reddit.com/r/atheism/comments/14dp1rv/sen_josh_hawley_shares_his_mindblowingly_stupid/jor20zd/
https://www.reddit.com/r/atheism/comments/14kt69e/why_do_my_christian_friends_view_my_atheism_as_an/jpsgbe5/
https://www.reddit.com/r/atheism/comments/14p6yir/finally_happened_the_one_babysitter_we_can_get/jqhk48s/
https://www.reddit.com/r/Audi/comments/14nyn9m/excuse_me_we_late/jqbdu2a/
https://www.reddit.com/r/Audi/comments/14oqxce/talk_me_inout_of_buying_this_gorgeous_audi_s5/jqev0p6/
https://www.reddit.com/r/Audi/comments/14pqr8a/is_this_a_good_deal_in_your_guys_opinions/jql4wnb/
...

Varianti di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON.

Impostazioni possibili

ParametroValore predefinitoDescrizione
Pages count5Numero di pagine dei risultati
SortRelevanceOrdinamento dei risultati