Passer au contenu principal

Rank::CMS - détection de plus de 600 types de CMS basée sur des empreintes. Identifie tous les forums, blogs, CMS, livres d'or, wikis populaires et de nombreux autres types de moteurs

Présentation du scraper

Présentation du scraperRank::CMSRank::CMS – identifie plus de 600 types de CMS sur la base de caractéristiques. Identifie tous les forums populaires, blogs, CMS, livres d'or, wikis et de nombreux autres types de moteurs.

La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper Rank::CMS pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.

La sauvegarde des résultats est possible dans le format et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.

Données collectées

  • Nom du CMS
  • Nom de la catégorie

Liste des CMS supportés

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Fonctionnalités

  • Détection de 161 types de CMS basés sur des empreintes
  • Identifie tous les forums, blogs, CMS, livres d'or, wikis populaires et de nombreux autres types de moteurs basés sur la base d'empreintes large et de qualité de Wappalyzer (plus de 800 technologies au total)
  • Possibilité de choisir une catégorie ou des moteurs spécifiques pour la reconnaissance
  • Possibilité de spécifier un User-Agent personnalisé
  • Possibilité de modifier et de compléter la base d'empreintes
  • Possibilité d'utiliser son propre fichier d'empreintes (le fichier custom-apps.json doit avoir une structure identique au fichier apps.json standard et se trouver dans le chemin files/Rank-CMS ; si tout est fait correctement, de nouvelles catégories et applications apparaîtront à la fin de la liste dans l'option Check list)

Variantes d'utilisation

  • Filtrage par moteurs
  • Tri de grandes bases de données par moteurs

Requêtes

Vous devez spécifier une liste de domaines comme requêtes, par exemple :

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Exemples de formats de sortie

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que de manière structurée, par exemple en CSV ou JSON.

Sortie par défaut

Format du résultat :

$query - $cms\n

Exemple de résultat :

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Sauvegarde au format SQL

Format du résultat :

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Exemple de résultat :

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Dump des résultats en JSON

Format de sortie general:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Texte initial:

[

Texte final:

]

Exemple de résultat :

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
astuce

Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".

Paramètres possibles

ParamètreValeur par défautDescription
User agent_Le user-agent de la version actuelle de Chrome est automatiquement inséré_Permet de se présenter comme un navigateur ou un moteur de recherche spécifique
Log long running regexDétermine s'il faut enregistrer les expressions régulières lentes
Check listcms, message-boards, wikisChoix des moteurs à vérifier
Emulate browser headersPossibilité d'émuler les en-têtes du navigateur
RegExp engineRE2Choix du moteur d'expressions régulières
Use Net::HTTPPossibilité d'utiliser le scraper Net::HTTPNet::HTTP pour les requêtes
Net::HTTP presetdefaultPossibilité de spécifier une présélection avec des paramètres