Ir al contenido principal

Rank::CMS: detección de más de 600 tipos de CMS basados en huellas. Identifica todos los foros, blogs, CMS, libros de visitas, wikis y muchos otros tipos de motores populares

Descripción general del extractor

Descripción general del extractorRank::CMSRank::CMS – identifica más de 600 tipos de CMS basándose en características. Identifica todos los foros populares, blogs, CMS, libros de visitas, wikis y muchos otros tipos de motores.

La funcionalidad de A-Parser permite guardar la configuración de extracción del extractor Rank::CMS para su uso posterior (ajustes preestablecidos), establecer programas de extracción y mucho más.

El guardado de resultados es posible en la forma y estructura que necesite, gracias al potente motor de plantillas integrado Template Toolkit que permite aplicar lógica adicional a los resultados y exportar datos en varios formatos, incluyendo JSON, SQL y CSV.

Datos recopilados

  • Nombre del CMS
  • Nombre de la categoría

Lista de CMS compatibles

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Características

  • Identificación de 161 tipos de CMS basados en huellas
  • Identifica todos los foros, blogs, CMS, libros de visitas, wikis y muchos otros tipos de motores populares basados en la amplia y de alta calidad base de huellas de Wappalyzer (más de 800 tecnologías en total)
  • Posibilidad de elegir una categoría o motores específicos para el reconocimiento
  • Posibilidad de especificar un User-Agent personalizado
  • Posibilidad de modificar y complementar la base de huellas
  • Posibilidad de utilizar su propio archivo de huellas (el archivo custom-apps.json debe tener una estructura idéntica al apps.json normal y estar ubicado en la ruta files/Rank-CMS; si se hace correctamente, aparecerán nuevas categorías y aplicaciones para elegir en la opción Check list al final de la lista)

Variantes de uso

  • Filtrado por motores
  • Clasificación de grandes bases de datos por motores

Consultas

Como consultas, es necesario especificar una lista de dominios, por ejemplo:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Variantes de salida de resultados

A-Parser admite un formateo flexible de resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en forma arbitraria, así como estructurada, por ejemplo CSV o JSON

Salida por defecto

Formato de resultado:

$query - $cms\n

Ejemplo de resultado:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Guardado en formato SQL

Formato de resultado:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Ejemplo de resultado:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Volcado de resultados en JSON

Formato general del resultado:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Texto inicial:

[

Texto final:

]

Ejemplo de resultado:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
sugerencia

Para que las opciones "Texto inicial" y "Texto final" estén disponibles en el Editor de tareas, debe activar "Más opciones".

Configuraciones posibles

ParámetroValor por defectoDescripción
User agent_Se sustituye automáticamente el user-agent de la versión actual de Chrome_Permite presentarse como un navegador o motor de búsqueda específico
Log long running regexDetermina si se deben registrar expresiones regulares lentas
Check listcms, message-boards, wikisSelección de motores para verificar
Emulate browser headersPosibilidad de emular cabeceras de navegador
RegExp engineRE2Selección del motor de expresiones regulares
Use Net::HTTPPosibilidad de utilizar el extractor Net::HTTPNet::HTTP para las solicitudes
Net::HTTP presetdefaultPosibilidad de especificar un ajuste preestablecido con configuraciones