Passer au contenu principal

Reddit::Posts - scraper de messages sur Reddit

SE::Quora

Présentation du scraper Reddit::Posts

Reddit::PostsReddit::Posts - scraper de messages sur Reddit.

Collecte une liste de messages (posts) et de nombreuses informations pour chacun d'eux à partir du service éponyme.

Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper Reddit::Posts pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.

La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

Tableau de messages (posts) :

  • Lien vers le post
  • Titre et étiquette (flair)
  • Score, nombre de commentaires et nombre de récompenses
  • Date de création
  • Communauté dans laquelle le post est publié
  • Auteur et son étiquette (flair)
  • Contenu du post : texte en markdown, lien vers le contenu média et lien vers une ressource externe
  • Si le post est publicitaire

Fonctionnalités

  • Spécification du nombre de pages à scraper
  • Choix de la méthode de tri des résultats
  • Sélection de la période des résultats
  • Possibilité de scraper à l'intérieur d'une communauté spécifique

Cas d'utilisation

  • Tous les scénarios nécessitant l'obtention de données sur les messages (posts) sur Reddit

Requêtes

Plusieurs variantes de requêtes sont prises en charge :

Liens vers des thématiques (topics)

Exemple :

https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/

Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :

https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...

Liens vers des communautés

Les paramètres dans les liens indiquant la période et le tri des résultats sont également pris en compte, tandis que ceux définis dans les paramètres sont ignorés. Exemple :

https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month

Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :

https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...

Mots-clés

Exemple :

wordpress features
parser

Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :

https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...

Mots-clés et liens vers des communautés

Le scraper prend en charge la recherche par mot-clé dans une communauté spécifique. Pour cela, il faut indiquer dans la requête le mot-clé suivi d'un espace et du lien vers la communauté. Exemple :

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :

https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...

Options de sortie des résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que dans des formats structurés comme CSV ou JSON.

Paramètres possibles

ParamètreValeur par défautDescription
Pages count5Nombre de pages de résultats
SortRelevanceTri des résultats
TimeAll timePériode des résultats
Use HTTP/2 transportDétermine s'il faut utiliser HTTP/2 au lieu de HTTP/1.1