Passer au contenu principal

Reddit::PostInfo - scraper d'informations sur les publications Reddit

SE::Quora

Présentation du scraper Reddit::PostInfo

Reddit::PostInfoReddit::PostInfo - scraper d'informations sur les publications Reddit.

Collecte des informations sur un post, y compris les commentaires.

Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper Reddit::PostInfo pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarit intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, notamment JSON, SQL et CSV.

Données collectées

  • Lien vers le post
  • Titre et étiquette (flair)
  • Score, nombre de commentaires et nombre de récompenses
  • Date de création
  • Communauté dans laquelle le post est publié
  • Auteur et son étiquette (flair)
  • Contenu du post : texte en markdown, lien vers le contenu média et lien vers une ressource externe
  • Si le post est publicitaire

Tableau des commentaires :

  • ID
  • ID du parent
  • Lien
  • Auteur
  • Texte (nettoyé des balises)
  • Texte (avec balises)

Fonctionnalités

  • Possibilité de limiter le nombre de commentaires à scraper

Requêtes

Une seule variante de requêtes est prise en charge :

Liens vers les posts

Exemple :

https://www.reddit.com/r/Audi/comments/151atr5/audi_r8_high_speed_crash_294_km/
https://www.reddit.com/r/Lexus/comments/1dc7r2m/anyone_come_from_audi_to_lexus/

Par défaut, le résultat affichera les informations sur le post sans les commentaires

Variantes d'affichage des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme arbitraire, ainsi que sous une forme structurée, par exemple CSV ou JSON.

Paramètres possibles

ParamètreValeur par défautDescription
Max comments count50Nombre de commentaires à scraper