Pular para o conteúdo principal

Rank::CMS - detecção de mais de 600 tipos de CMS com base em assinaturas. Identifica todos os fóruns, blogs, CMS, guestbooks, wikis e muitos outros tipos de motores populares

Visão geral do scraper

Visão geral do scraperRank::CMSRank::CMS – identifica mais de 600 tipos de CMS com base em características. Identifica todos os fóruns populares, blogs, CMS, guestbooks, wikis e muitos outros tipos de motores.

A funcionalidade do A-Parser permite salvar as configurações de extração de dados do scraper Rank::CMS para uso posterior (presetes), definir cronogramas de extração de dados e muito mais.

A gravação dos resultados é possível no formato e estrutura que você desejar, graças ao poderoso motor de modelos integrado Template Toolkit, que permite aplicar lógica adicional aos resultados e exibir dados em vários formatos, incluindo JSON, SQL e CSV.

Dados coletados

  • Nome do CMS
  • Nome da categoria

Lista de CMS suportados

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Recursos

  • Identificação de 161 tipos de CMS com base em assinaturas
  • Identifica todos os fóruns, blogs, CMS, guestbooks, wikis populares e muitos outros tipos de motores com base na grande e qualificada base de assinaturas do Wappalyzer (mais de 800 tecnologias no total)
  • Possibilidade de selecionar uma categoria ou motores específicos para reconhecimento
  • Possibilidade de especificar um User-Agent personalizado
  • Possibilidade de alterar e complementar a base de assinaturas
  • Possibilidade de usar um arquivo próprio com assinaturas (o arquivo custom-apps.json deve ter estrutura idêntica ao apps.json normal e estar localizado no caminho files/Rank-CMS; se feito corretamente, novas categorias e aplicações aparecerão na opção Check list ao final da lista)

Variantes de uso

  • Filtragem por motores
  • Ordenação de grandes bases de dados por motores

Consultas

Como consultas, é necessário indicar uma lista de domínios, por exemplo:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Variantes de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em formato livre, bem como estruturado, como CSV ou JSON

Exibição padrão

Formato do resultado:

$query - $cms\n

Exemplo de resultado:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Salvando em formato SQL

Formato do resultado:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Exemplo de resultado:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Dump de resultados em JSON

Formato geral do resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Texto inicial:

[

Texto final:

]

Exemplo de resultado:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
dica

Para que as opções "Prepend text" e "Append text" estejam disponíveis no Editor de tarefas, é necessário ativar "More options".

Configurações possíveis

ParâmetroValor padrãoDescrição
User agent_O user-agent da versão atual do Chrome é inserido automaticamente_Permite identificar-se como um navegador específico ou sistema de busca
Log long running regexDefine se deve registrar expressões regulares lentas
Check listcms, message-boards, wikisSeleção de motores para verificação
Emulate browser headersPossibilidade de emular cabeçalhos de navegador
RegExp engineRE2Escolha do motor de expressões regulares
Use Net::HTTPPossibilidade de usar o scraper Net::HTTPNet::HTTP para requisições
Net::HTTP presetdefaultPossibilidade de especificar um presete com configurações