Reddit::Comments - scraper de commentaires sur Reddit

Présentation du scraper Reddit::Comments
Reddit::Comments - scraper de messages sur Reddit.Collecte une liste de commentaires et de nombreuses informations pour chacun d'entre eux à partir du service éponyme.
Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper Reddit::Posts pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.
La sauvegarde des résultats est possible sous la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
Tableau de commentaires :
- Lien vers le commentaire
- Contenu du commentaire (en markdown)
- Note (score) et nombre de récompenses
- Date de création du commentaire
- Auteur du commentaire et son badge (flair)
- Lien vers le post auquel appartient ce commentaire
- Titre du post et son badge (flair)
- Note du post, nombre de commentaires et nombre de récompenses
- Date de création du post
- Communauté dans laquelle le post est publié
- Auteur du post et son badge (flair)
- Contenu du post : texte en markdown, lien vers le contenu média et lien vers une ressource externe
Fonctionnalités
- Spécification du nombre de pages à scraper
- Spécification de la méthode de tri des résultats
- Possibilité de scraper au sein d'une communauté spécifique
Cas d'utilisation
- Tous les scénarios nécessitant la collecte de commentaires laissés sur les messages Reddit
Requêtes
Deux variantes de requêtes sont prises en charge :
Mots-clés
Exemple :
wordpress features
parser
Par défaut, le résultat affichera une liste de liens vers les commentaires, par exemple :
https://www.reddit.com/r/node/comments/14lmqbq/how_to_work_with_xlsx_files/jpy3r5a/
https://www.reddit.com/r/StardewValley/comments/14qidly/having_problems_installing_stardew_valley/jqnalwz/
https://www.reddit.com/r/elasticsearch/comments/14pr86i/how_to_parsing_this_lin_logstash/jqkstjw/
https://www.reddit.com/r/vexillology/comments/14fh5th/flag_of_riga_michigan/jp10w17/
https://www.reddit.com/r/Marvel/comments/14otc3t/hank_pym_is_a_really_humble_guy_the_mighty/jqf27xy/
https://www.reddit.com/r/math/comments/14p1lkg/from_the_perspective_of_you_mathematicians_what/jqgug4q/
https://www.reddit.com/r/Wordpress/comments/14okx06/help_looking_for_a_specific_plugin_for_booking/jqhwtu5/
https://www.reddit.com/r/osr/comments/13u8g7s/difference_between_whitebox_whitehack/jlzhthi/
...
Mots-clés et liens vers les communautés
Le scraper prend en charge la recherche par mot-clé dans une communauté spécifique. Pour cela, il faut indiquer dans la requête le mot-clé suivi d'un espace et du lien vers la communauté. Exemple :
jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/
Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :
https://www.reddit.com/r/atheism/comments/14dp1rv/sen_josh_hawley_shares_his_mindblowingly_stupid/jor20zd/
https://www.reddit.com/r/atheism/comments/14kt69e/why_do_my_christian_friends_view_my_atheism_as_an/jpsgbe5/
https://www.reddit.com/r/atheism/comments/14p6yir/finally_happened_the_one_babysitter_we_can_get/jqhk48s/
https://www.reddit.com/r/Audi/comments/14nyn9m/excuse_me_we_late/jqbdu2a/
https://www.reddit.com/r/Audi/comments/14oqxce/talk_me_inout_of_buying_this_gorgeous_audi_s5/jqev0p6/
https://www.reddit.com/r/Audi/comments/14pqr8a/is_this_a_good_deal_in_your_guys_opinions/jql4wnb/
...
Options de sortie des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que de manière structurée, par exemple en CSV ou JSON.
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Pages count | 5 | Nombre de pages de résultats |
| Sort | Relevance | Tri des résultats |