Ir al contenido principal

Reddit::Posts - extractor de publicaciones en Reddit

SE::Quora

Descripción del extractor Reddit::Posts

Reddit::PostsReddit::Posts - extractor de publicaciones en Reddit.

Recopila una lista de mensajes (posts) y una gran cantidad de información para cada uno de ellos desde el servicio del mismo nombre.

Puede utilizar la multiplicación automática de consultas, la sustitución de subconsultas desde archivos, la iteración de combinaciones alfanuméricas y listas para obtener la mayor cantidad posible de resultados.

La funcionalidad de A-Parser permite guardar la configuración de extracción del extractor Reddit::Posts para su uso posterior (ajustes preestablecidos), establecer programas de extracción y mucho más.

Es posible guardar los resultados en la forma y estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit, que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluidos JSON, SQL y CSV.

Datos recopilados

Matriz de mensajes (posts):

  • Enlace al post
  • Título y etiqueta (flair)
  • Calificación, número de comentarios y número de premios
  • Fecha de creación
  • Comunidad en la que se publicó el post
  • Autor y su etiqueta (flair)
  • Contenido del post: texto en markdown, enlace al contenido multimedia y enlace a un recurso externo
  • Si el post es publicitario

Características

  • Especificación del número de páginas para la extracción de datos
  • Especificación del método de ordenación de los resultados
  • Selección del periodo de tiempo de los resultados
  • Posibilidad de extraer datos dentro de una comunidad específica

Casos de uso

  • Cualquier escenario donde sea necesario obtener datos sobre mensajes (posts) en Reddit

Consultas

Se admiten varias opciones de consulta:

Enlaces a temas

Ejemplo:

https://www.reddit.com/t/bitcoin/
https://www.reddit.com/t/kim_kardashian/

Por defecto, el resultado mostrará una lista de enlaces a los posts, por ejemplo:

https://www.reddit.com/r/Bitcoin/comments/14nbyy2/i_took_out_a_35000_loan_to_buy_bitcoin_1_year/
https://www.reddit.com/r/CryptoCurrency/comments/14guprs/bitcoin_is_up_75_since_jim_cramer_told_investors/
https://www.reddit.com/r/Bitcoin/comments/14opp2t/this_guy_was_paid_32_bitcoin_to_hold_up_this_sign/
https://www.reddit.com/r/CryptoCurrency/comments/14ivx43/nearly_69_of_all_bitcoin_supply_did_not_move_in/
https://www.reddit.com/r/CryptoCurrency/comments/149vy0o/bitcoin_dips_below_25k_for_the_first_time_in_3/
...

Enlaces a comunidades

También se tienen en cuenta los parámetros en los enlaces que indican el tiempo y la ordenación de los resultados, mientras que los establecidos en la configuración se ignoran. Ejemplo:

https://www.reddit.com/r/nba/
https://www.reddit.com/r/OrlandoMagic/top/?t=month

Por defecto, el resultado mostrará una lista de enlaces a los posts, por ejemplo:

https://www.reddit.com/r/OrlandoMagic/comments/14a5br2/
https://www.reddit.com/r/OrlandoMagic/comments/14nqfk1/keep_mo_or_no_mo/
https://www.reddit.com/r/nba/comments/14nfzki/202324_nba_free_agent_tracker/
https://www.reddit.com/user/Grammarly/comments/14ghtld/verbessere_deine_schreibfertigkeit_auf_englisch/
https://www.reddit.com/r/nba/comments/14r4l4s/vernon_dillon_brooks_took_991_shots_last_year_he/
https://www.reddit.com/r/nba/comments/14ql1es/highlight_matt_devlin_inexplicably_yells_punjabi/
https://www.reddit.com/user/TelekomShop/comments/yqkina/der_highspeedhotspot_zum_mitnehmen_die_speedbox/
https://www.reddit.com/r/nba/comments/14qysvi/michael_jordan_with_the_spin_hanging_onehanded/
https://www.reddit.com/r/nba/comments/14qxrep/dwyane_wade_leads_the_redeem_team_with_27_points/
...

Palabras clave

Ejemplo:

wordpress features
parser

Por defecto, el resultado mostrará una lista de enlaces a los posts, por ejemplo:

https://www.reddit.com/r/ShitpostXIV/comments/14511em/i_am_a_proud_grey_parser/
https://www.reddit.com/r/opengl/comments/147sbjk/4_hours_of_my_obj_parser_so_far/
https://www.reddit.com/r/Compilers/comments/14pi9xh/demystifying_pratt_parsers/
https://www.reddit.com/r/ZETTAHOST/comments/11qdg99/how_to_change_the_wordpress_featured_image_size/
https://www.reddit.com/r/Wordpress/comments/14p1k2p/what_features_is_wordpress_missing_i_want_to_help/
https://www.reddit.com/r/Wordpress/comments/13q8g5x/is_it_possible_and_advisable_to_build_a_website/
...

Palabras clave y enlaces a comunidades

El extractor admite la búsqueda por palabra clave en una comunidad específica. Para ello, debe indicar en la consulta la palabra clave y, tras un espacio, el enlace a la comunidad. Ejemplo:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

Por defecto, el resultado mostrará una lista de enlaces a los posts, por ejemplo:

https://www.reddit.com/r/Audi/comments/vi6cs5/thoughts_on_used_stage_3_2017_a3/
https://www.reddit.com/r/Audi/comments/lfvjuo/just_picked_up_this_beauty_stage_3_b5_s4/
https://www.reddit.com/r/Audi/comments/ssr8ui/anyone_else_track_their_audis_ttrs_stage_3_big/
https://www.reddit.com/r/atheism/comments/14lq0y6/heaven_and_hell_are_not_what_jesus_preached/
https://www.reddit.com/r/atheism/comments/13gxzj6/so_jesus_freaks_can_shove_their_religion_onto/
https://www.reddit.com/r/atheism/comments/13b8kl6/chris_pratt_compares_his_struggles_to_jesus/
https://www.reddit.com/r/atheism/comments/137k88b/artwork_of_jesus_surrounded_by_hot_leather/
...

Opciones de salida de resultados

A-Parser admite un formato flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite presentar los resultados en cualquier forma, así como en formatos estructurados como CSV o JSON.

Configuraciones posibles

ParámetroValor por defectoDescripción
Pages count5Cantidad de páginas de resultados
SortRelevanceOrdenación de los resultados
TimeAll timeTiempo de los resultados
Use HTTP/2 transportDetermina si se debe usar HTTP/2 en lugar de HTTP/1.1