Reddit::Posts - scraper de messages sur Reddit

Présentation du scraper Reddit::Posts
Reddit::Posts - scraper de messages sur Reddit.Collecte une liste de messages (posts) et de nombreuses informations pour chacun d'eux à partir du service éponyme.
Vous pouvez utiliser la multiplication automatique des requêtes, la substitution de sous-requêtes à partir de fichiers, l'itération de combinaisons alphanumériques et de listes pour obtenir le maximum de résultats possible.
La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte du scraper Reddit::Posts pour une utilisation ultérieure (présélections), de définir un calendrier de collecte et bien plus encore.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
Tableau de messages (posts) :
- Lien vers le post
- Titre et étiquette (flair)
- Score, nombre de commentaires et nombre de récompenses
- Date de création
- Communauté dans laquelle le post est publié
- Auteur et son étiquette (flair)
- Contenu du post : texte en markdown, lien vers le contenu média et lien vers une ressource externe
- Si le post est publicitaire
Fonctionnalités
- Spécification du nombre de pages à scraper
- Choix de la méthode de tri des résultats
- Sélection de la période des résultats
- Possibilité de scraper à l'intérieur d'une communauté spécifique
Cas d'utilisation
- Tous les scénarios nécessitant l'obtention de données sur les messages (posts) sur Reddit
Requêtes
Plusieurs variantes de requêtes sont prises en charge :
Liens vers des thématiques (topics)
Exemple :
https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/
Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :
https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...
Liens vers des communautés
Les paramètres dans les liens indiquant la période et le tri des résultats sont également pris en compte, tandis que ceux définis dans les paramètres sont ignorés. Exemple :
https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month
Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :
https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...
Mots-clés
Exemple :
wordpress features
parser
Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :
https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...
Mots-clés et liens vers des communautés
Le scraper prend en charge la recherche par mot-clé dans une communauté spécifique. Pour cela, il faut indiquer dans la requête le mot-clé suivi d'un espace et du lien vers la communauté. Exemple :
jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/
Par défaut, le résultat affichera une liste de liens vers les posts, par exemple :
https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...
Options de sortie des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que dans des formats structurés comme CSV ou JSON.
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| Pages count | 5 | Nombre de pages de résultats |
| Sort | Relevance | Tri des résultats |
| Time | All time | Période des résultats |
| Use HTTP/2 transport | ☑ | Détermine s'il faut utiliser HTTP/2 au lieu de HTTP/1.1 |