Reddit::Posts - scraper voor berichten op Reddit

Overzicht van de scraper Reddit::Posts
Reddit::Posts - scraper voor berichten op Reddit.Verzamelt een lijst met berichten (posts) en een schat aan informatie voor elk van hen van de gelijknamige dienst.
U kunt automatische query-vermenigvuldiging, substitutie van subquery's uit bestanden, het doorlopen van alfanumerieke combinaties en lijsten gebruiken om het maximaal mogelijke aantal resultaten te verkrijgen.
De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de Reddit::Posts scraper op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit, waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
Array van berichten (posts):
- Link naar de post
- Titel en label (flair)
- Score, aantal reacties en aantal awards
- Aanmaakdatum
- Community waarin de post is gepubliceerd
- Auteur en diens label (flair)
- Inhoud van de post: tekst in markdown, link naar media-inhoud en link naar externe bron
- Of de post een advertentie is
Mogelijkheden
- Opgeven van het aantal pagina's voor gegevensextractie
- Opgeven van de sorteermethode voor resultaten
- Selectie van de tijdsperiode van de resultaten
- Mogelijkheid om binnen een specifieke community te scrapen
Gebruiksscenario's
- Alle scenario's waarbij gegevens over berichten (posts) op Reddit verkregen moeten worden
Query's
Verschillende query-opties worden ondersteund:
Links naar topics
Voorbeeld:
https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/
In het resultaat wordt standaard een lijst met links naar posts weergegeven, bijvoorbeeld:
https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...
Links naar communities
Parameters in links die wijzen naar tijd en sortering van resultaten worden ook in acht genomen, terwijl de instellingen in de configuratie dan worden genegeerd. Voorbeeld:
https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month
In het resultaat wordt standaard een lijst met links naar posts weergegeven, bijvoorbeeld:
https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...
Trefwoorden
Voorbeeld:
wordpress features
parser
In het resultaat wordt standaard een lijst met links naar posts weergegeven, bijvoorbeeld:
https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...
Trefwoorden en links naar communities
De scraper ondersteunt het zoeken op trefwoord in een specifieke community. Hiervoor moet in de query het trefwoord en na een spatie de link naar de community worden opgegeven. Voorbeeld:
jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/
In het resultaat wordt standaard een lijst met links naar posts weergegeven, bijvoorbeeld:
https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...
Resultaatuitvoeropties
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in een gestructureerde vorm zoals CSV of JSON.
Mogelijke instellingen
| Parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Pages count | 5 | Aantal resultaatpagina's |
| Sort | Relevance | Sortering van resultaten |
| Time | All time | Tijd van resultaten |
| Use HTTP/2 transport | ☑ | Bepaalt of HTTP/2 moet worden gebruikt in plaats van HTTP/1.1 |