Pular para o conteúdo principal

Reddit::Posts - scraper de mensagens no Reddit

SE::Quora

Visão geral do scraper Reddit::Posts

Reddit::PostsReddit::Posts - scraper de mensagens no Reddit.

Coleta uma lista de mensagens (posts) e diversas informações para cada uma delas a partir do serviço homônimo.

Você pode usar a multiplicação automática de consultas, substituição de subconsultas a partir de arquivos, geração de combinações alfanuméricas e listas para obter a maior quantidade possível de resultados.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Reddit::Posts para uso futuro (predefinições), definir cronogramas de extração de dados e muito mais.

A preservação dos resultados é possível na forma e estrutura que você necessita, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

Array de mensagens (posts):

  • Link para o post
  • Título e etiqueta (flair)
  • Classificação, número de comentários e número de prêmios
  • Data de criação
  • Comunidade onde o post foi publicado
  • Autor e sua etiqueta (flair)
  • Conteúdo do post: texto em markdown, link para conteúdo de mídia e link para recurso externo
  • Se o post é publicitário

Recursos

  • Especificação do número de páginas para extração de dados
  • Especificação do método de ordenação dos resultados
  • Escolha do período de tempo dos resultados
  • Possibilidade de extrair dados dentro de uma comunidade específica

Casos de uso

  • Qualquer cenário onde seja necessário obter dados sobre mensagens (posts) no Reddit

Consultas

Várias opções de consultas são suportadas:

Exemplo:

https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/

Por padrão, o resultado exibirá uma lista de links para os posts, por exemplo:

https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...

Parâmetros nos links que indicam o tempo e a ordenação dos resultados também são levados em conta, enquanto os definidos nas configurações são ignorados. Exemplo:

https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month

Por padrão, o resultado exibirá uma lista de links para os posts, por exemplo:

https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...

Palavras-chave

Exemplo:

wordpress features
parser

Por padrão, o resultado exibirá uma lista de links para os posts, por exemplo:

https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...

O scraper suporta a busca por palavra-chave em uma comunidade específica. Para isso, é necessário indicar na consulta a palavra-chave e, após um espaço, o link para a comunidade. Exemplo:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

Por padrão, o resultado exibirá uma lista de links para os posts, por exemplo:

https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em formato livre, bem como em formato estruturado, como CSV ou JSON.

Configurações possíveis

ParâmetroValor padrãoDescrição
Pages count5Quantidade de páginas de resultados
SortRelevanceOrdenação dos resultados
TimeAll timePeríodo dos resultados
Use HTTP/2 transportDefine se deve usar HTTP/2 em vez de HTTP/1.1