Rank::CMS - detecção de mais de 600 tipos de CMS com base em assinaturas. Identifica todos os fóruns, blogs, CMS, guestbooks, wikis e muitos outros tipos de motores populares
Visão geral do scraper

Rank::CMS – identifica mais de 600 tipos de CMS com base em características. Identifica todos os fóruns populares, blogs, CMS, guestbooks, wikis e muitos outros tipos de motores.A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Rank::CMS para uso posterior (presetes), definir cronogramas de extração de dados e muito mais.
A gravação dos resultados é possível no formato e estrutura que você desejar, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.
Dados coletados
- Nome do CMS
- Nome da categoria
Lista de CMS suportados
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Recursos
- Identificação de 161 tipos de CMS com base em assinaturas
- Identifica todos os fóruns, blogs, CMS, guestbooks, wikis populares e muitos outros tipos de motores com base na grande e qualificada base de assinaturas do Wappalyzer (mais de 800 tecnologias no total)
- Possibilidade de selecionar uma categoria ou motores específicos para reconhecimento
- Possibilidade de especificar um User-Agent personalizado
- Possibilidade de alterar e complementar a base de assinaturas
- Possibilidade de usar um arquivo próprio com assinaturas (o arquivo custom-apps.json deve ter estrutura idêntica ao apps.json normal e estar localizado no caminho files/Rank-CMS; se feito corretamente, novas categorias e aplicações aparecerão na opção Check list ao final da lista)
Variantes de uso
- Filtragem por motores
- Ordenação de grandes bases de dados por motores
Consultas
Como consultas, é necessário indicar uma lista de domínios, por exemplo:
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Variantes de exibição de resultados
O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em formato livre, bem como estruturado, como CSV ou JSON
Exibição padrão
Formato do resultado:
$query - $cms\n
Exemplo de resultado:
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
Salvando em formato SQL
Formato do resultado:
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Exemplo de resultado:
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Dump de resultados em JSON
Formato geral do resultado:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Texto inicial:
[
Texto final:
]
Exemplo de resultado:
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Para que as opções "Prepend text" e "Append text" estejam disponíveis no Editor de tarefas, é necessário ativar "More options".
Configurações possíveis
| Parâmetro | Valor padrão | Descrição |
|---|---|---|
| User agent | _O user-agent da versão atual do Chrome é inserido automaticamente_ | Permite identificar-se como um navegador específico ou sistema de busca |
| Log long running regex | ☐ | Define se deve registrar expressões regulares lentas |
| Check list | cms, message-boards, wikis | Seleção de motores para verificação |
| Emulate browser headers | ☑ | Possibilidade de emular cabeçalhos de navegador |
| RegExp engine | RE2 | Escolha do motor de expressões regulares |
| Use Net::HTTP | ☐ | Possibilidade de usar o scraper Net::HTTP para requisições |
| Net::HTTP preset | default | Possibilidade de especificar um presete com configurações |
