Reddit::Comments - scraper di commenti su Reddit

Panoramica dello scraper Reddit::Comments
Reddit::Comments - scraper di commenti su Reddit.Raccoglie un elenco di commenti e una moltitudine di informazioni per ciascuno di essi dall'omonimo servizio.
È possibile utilizzare la generazione automatica delle query, la sostituzione di sotto-query da file, l'iterazione di combinazioni alfanumeriche e di elenchi per ottenere il massimo numero possibile di risultati.
Le funzionalità di A-Parser consentono di salvare le impostazioni di scraping dello scraper Reddit::Posts per un uso futuro (preset), impostare pianificazioni di scraping e molto altro.
Il salvataggio dei risultati è possibile nella forma e nella struttura desiderata, grazie al potente motore di modelli integrato Template Toolkit che permette di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, inclusi JSON, SQL e CSV.
Dati raccolti
Array di commenti:
- Link al commento
- Contenuto del commento (in markdown)
- Valutazione e numero di premi (awards)
- Data di creazione del commento
- Autore del commento e la sua etichetta (flair)
- Link al post a cui si riferisce il commento
- Titolo del post e la sua etichetta (flair)
- Valutazione del post, numero di commenti e numero di premi
- Data di creazione del post
- Community in cui è stato pubblicato il post
- Autore del post e la sua etichetta (flair)
- Contenuto del post: testo in markdown, link al contenuto multimediale e link a risorse esterne
Funzionalità
- Specifica del numero di pagine per lo scraping
- Specifica del metodo di ordinamento dei risultati
- Possibilità di eseguire lo scraping all'interno di una specifica community
Casi d'uso
- Qualsiasi scenario in cui sia necessario raccogliere commenti lasciati ai messaggi su Reddit
Query
Sono supportate 2 varianti di query:
Parole chiave
Esempio:
wordpress features
parser
Nel risultato predefinito verrà visualizzato un elenco di link ai commenti, ad esempio:
https://www.reddit.com/r/node/comments/14lmqbq/how_to_work_with_xlsx_files/jpy3r5a/
https://www.reddit.com/r/StardewValley/comments/14qidly/having_problems_installing_stardew_valley/jqnalwz/
https://www.reddit.com/r/elasticsearch/comments/14pr86i/how_to_parsing_this_lin_logstash/jqkstjw/
https://www.reddit.com/r/vexillology/comments/14fh5th/flag_of_riga_michigan/jp10w17/
https://www.reddit.com/r/Marvel/comments/14otc3t/hank_pym_is_a_really_humble_guy_the_mighty/jqf27xy/
https://www.reddit.com/r/math/comments/14p1lkg/from_the_perspective_of_you_mathematicians_what/jqgug4q/
https://www.reddit.com/r/Wordpress/comments/14okx06/help_looking_for_a_specific_plugin_for_booking/jqhwtu5/
https://www.reddit.com/r/osr/comments/13u8g7s/difference_between_whitebox_whitehack/jlzhthi/
...
Parole chiave e link alle community
Lo scraper supporta la ricerca per parola chiave in una specifica community. Per fare ciò, nella query è necessario indicare la parola chiave e, separata da uno spazio, il link alla community. Esempio:
jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/
Nel risultato predefinito verrà visualizzato un elenco di link ai post, ad esempio:
https://www.reddit.com/r/atheism/comments/14dp1rv/sen_josh_hawley_shares_his_mindblowingly_stupid/jor20zd/
https://www.reddit.com/r/atheism/comments/14kt69e/why_do_my_christian_friends_view_my_atheism_as_an/jpsgbe5/
https://www.reddit.com/r/atheism/comments/14p6yir/finally_happened_the_one_babysitter_we_can_get/jqhk48s/
https://www.reddit.com/r/Audi/comments/14nyn9m/excuse_me_we_late/jqbdu2a/
https://www.reddit.com/r/Audi/comments/14oqxce/talk_me_inout_of_buying_this_gorgeous_audi_s5/jqev0p6/
https://www.reddit.com/r/Audi/comments/14pqr8a/is_this_a_good_deal_in_your_guys_opinions/jql4wnb/
...
Varianti di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON.
Impostazioni possibili
| Parametro | Valore predefinito | Descrizione |
|---|---|---|
| Pages count | 5 | Numero di pagine dei risultati |
| Sort | Relevance | Ordinamento dei risultati |