Если нужно парсить текстовку, то это можно делать с помощью
HTML::TextExtractor. В данном случае будет собираться весь текст из указанных страниц по заданным настройкам. CMS значения не имеет.
А если нужно целенаправленно парсить именно статьи, то под каждый сайт нужно индивидуально составлять пресет (обычно на основе
Net::HTTP) и регулярными выражениями (функция Parse custom result) забирать только нужную информацию. CMS в данном случае тоже значения не имеет.
HTML::TextExtractor. В данном случае будет собираться весь текст из указанных страниц по заданным настройкам. CMS значения не имеет.А если нужно целенаправленно парсить именно статьи, то под каждый сайт нужно индивидуально составлять пресет (обычно на основе
Net::HTTP) и регулярными выражениями (функция Parse custom result) забирать только нужную информацию. CMS в данном случае тоже значения не имеет.