Перейти к основному содержимому

Reddit::Comments - парсер комментариев на Reddit

SE::Quora

Обзор парсера Reddit::Comments

Reddit::CommentsReddit::Comments - парсер сообщений на Reddit.

Собирает список комментариев и множество информации для каждого из них из одноимённого сервиса.

Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов.

Функционал A-Parser позволяет сохранять настройки парсинга парсера Reddit::Posts для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Собираемые данные

Массив комментариев:

  • Ссылка на комментарий
  • Содержимое комментария (в markdown)
  • Рейтинг и количество наград
  • Дата создания комментария
  • Автор комментария и его метка (flair)
  • Ссылка на пост, к которому относится данный комментарий
  • Заголовок поста и его метка (flair)
  • Рейтинг поста, количество комментариев к нему и количество наград
  • Дата создания поста
  • Комьюнити, в котором опубликован пост
  • Автор поста и его метка (flair)
  • Содержимое поста: текст в markdown, ссылка на медиа содержимое и ссылка на внешний ресурс

Возможности

  • Указание количества страниц для парсинга
  • Указание способа сортировки результатов
  • Возможность парсить внутри определенного комьюнити

Варианты использования

  • Любые сценарии, где требуется собирать комментарии, оставленные к сообщениям на Reddit

Запросы

Поддерживается 2 варианта запросов:

Ключевые слова

Пример:

wordpress features
parser

В результат по-умолчанию будет выведен список ссылок на комментарии, например:

https://www.reddit.com/r/node/comments/14lmqbq/how_to_work_with_xlsx_files/jpy3r5a/
https://www.reddit.com/r/StardewValley/comments/14qidly/having_problems_installing_stardew_valley/jqnalwz/
https://www.reddit.com/r/elasticsearch/comments/14pr86i/how_to_parsing_this_lin_logstash/jqkstjw/
https://www.reddit.com/r/vexillology/comments/14fh5th/flag_of_riga_michigan/jp10w17/
https://www.reddit.com/r/Marvel/comments/14otc3t/hank_pym_is_a_really_humble_guy_the_mighty/jqf27xy/
https://www.reddit.com/r/math/comments/14p1lkg/from_the_perspective_of_you_mathematicians_what/jqgug4q/
https://www.reddit.com/r/Wordpress/comments/14okx06/help_looking_for_a_specific_plugin_for_booking/jqhwtu5/
https://www.reddit.com/r/osr/comments/13u8g7s/difference_between_whitebox_whitehack/jlzhthi/
...

Ключевые слова и ссылки на комьюнити

Парсер поддерживает поиск по ключевому слову в определенном комьюнити. Для этого в запросе необходимо указать ключевое слово и через пробел ссылку на комьюнити. Пример:

jesus https://www.reddit.com/r/atheism/
stage 3 https://www.reddit.com/r/Audi/

В результат по-умолчанию будет выведен список ссылок на посты, например:

https://www.reddit.com/r/atheism/comments/14dp1rv/sen_josh_hawley_shares_his_mindblowingly_stupid/jor20zd/
https://www.reddit.com/r/atheism/comments/14kt69e/why_do_my_christian_friends_view_my_atheism_as_an/jpsgbe5/
https://www.reddit.com/r/atheism/comments/14p6yir/finally_happened_the_one_babysitter_we_can_get/jqhk48s/
https://www.reddit.com/r/Audi/comments/14nyn9m/excuse_me_we_late/jqbdu2a/
https://www.reddit.com/r/Audi/comments/14oqxce/talk_me_inout_of_buying_this_gorgeous_audi_s5/jqev0p6/
https://www.reddit.com/r/Audi/comments/14pqr8a/is_this_a_good_deal_in_your_guys_opinions/jql4wnb/
...

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON.

Возможные настройки

ПараметрЗначение по умолчаниюОписание
Pages count5Количество страниц выдачи
SortRelevanceСортировка результатов