Перейти к основному содержимому

Rank::CMS - определение более 600 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков

Rank::CMS

Обзор парсера Rank::CMS

Rank::CMSRank::CMS – определяет более 600 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков.

Функционал A-Parser позволяет сохранять настройки парсинга парсера Rank::CMS для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Список собираемых данных

  • Название CMS

Список поддерживаемых CMS

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Возможности

  • Определение 161 вида CMS на основе признаков
  • Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков на основе большой и качественной базы признаков Wappalyzer (всего более 800 технологий)
  • Возможность выбрать категорию или конкретные движки для распознавания
  • Возможность указать произвольный User-Agent
  • Возможность изменять и дополнять базу признаков
  • Возможность использовать собственный файл с признаками (файл custom-apps.json по структуре должен быть аналогичен обычному apps.json и находиться по пути _..\aparser\files\Rank-CMS_, если все сделано правильно, в опции Check list в конце списка появятся новые категории и приложения для выбора)

Варианты использования

  • Фильтрация по движкам
  • Сортировка больших баз по движкам

Примеры запросов

В качестве запросов необходимо указывать список доменов, например:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

В результате отображен домен и его CMS. Пример:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON.

Сохранение в формате SQL

Формат результата:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ p1.cms _ "', '" _ p1.cat _ "')\n" %]

Пример результата:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Дамп результатов в JSON

Формат результата:

[% data = {}; 
data.query = query;
data.cms = p1.cms;
data.cat = p1.cat; %]$data.json\n

Пример результата:

{"cat":"unknown","cms":"unknown","query":"http://google.com"}
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"}
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"}
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"}
{"cat":"unknown","cms":"unknown","query":"http://vk.com"}
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}

Возможные настройки

ПараметрЗначение по умолчаниюОписание
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Позволяет представляться определенным браузером или поисковой системой
Log long running regexОпределяет записывать ли медленные регулярные выражения
Check listcms, message-boards, wikisВыбор движков для проверки
Emulate browser headersВозможность эмулировать заголовки браузера
RegExp engineBuilt-inВыбор движка регулярных выражений
Use Net::HTTPВозможность использовать парсер Net::HTTPNet::HTTP для запросов
Net::HTTP presetdefaultВозможность указывать пресет с настройками