Rank::CMS - détection de plus de 600 types de CMS basée sur des empreintes. Identifie tous les forums, blogs, CMS, livres d'or, wikis populaires et de nombreux autres types de moteurs
Présentation du scraper

Rank::CMS – identifie plus de 600 types de CMS sur la base de caractéristiques. Identifie tous les forums populaires, blogs, CMS, livres d'or, wikis et de nombreux autres types de moteurs.La fonctionnalité d'A-Parser permet de sauvegarder les paramètres de collecte de données du scraper Rank::CMS pour une utilisation ultérieure (présélections), de définir un calendrier de collecte de données et bien plus encore.
La sauvegarde des résultats est possible dans le format et la structure dont vous avez besoin, grâce au puissant moteur de gabarits intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'exporter les données dans divers formats, y compris JSON, SQL et CSV.
Données collectées
- Nom du CMS
- Nom de la catégorie
Liste des CMS supportés
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Fonctionnalités
- Détection de 161 types de CMS basés sur des empreintes
- Identifie tous les forums, blogs, CMS, livres d'or, wikis populaires et de nombreux autres types de moteurs basés sur la base d'empreintes large et de qualité de Wappalyzer (plus de 800 technologies au total)
- Possibilité de choisir une catégorie ou des moteurs spécifiques pour la reconnaissance
- Possibilité de spécifier un User-Agent personnalisé
- Possibilité de modifier et de compléter la base d'empreintes
- Possibilité d'utiliser son propre fichier d'empreintes (le fichier custom-apps.json doit avoir une structure identique au fichier apps.json standard et se trouver dans le chemin files/Rank-CMS ; si tout est fait correctement, de nouvelles catégories et applications apparaîtront à la fin de la liste dans l'option Check list)
Variantes d'utilisation
- Filtrage par moteurs
- Tri de grandes bases de données par moteurs
Requêtes
Vous devez spécifier une liste de domaines comme requêtes, par exemple :
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Exemples de formats de sortie
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarits intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que de manière structurée, par exemple en CSV ou JSON.
Sortie par défaut
Format du résultat :
$query - $cms\n
Exemple de résultat :
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
Sauvegarde au format SQL
Format du résultat :
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Exemple de résultat :
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Dump des résultats en JSON
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".
Paramètres possibles
| Paramètre | Valeur par défaut | Description |
|---|---|---|
| User agent | _Le user-agent de la version actuelle de Chrome est automatiquement inséré_ | Permet de se présenter comme un navigateur ou un moteur de recherche spécifique |
| Log long running regex | ☐ | Détermine s'il faut enregistrer les expressions régulières lentes |
| Check list | cms, message-boards, wikis | Choix des moteurs à vérifier |
| Emulate browser headers | ☑ | Possibilité d'émuler les en-têtes du navigateur |
| RegExp engine | RE2 | Choix du moteur d'expressions régulières |
| Use Net::HTTP | ☐ | Possibilité d'utiliser le scraper Net::HTTP pour les requêtes |
| Net::HTTP preset | default | Possibilité de spécifier une présélection avec des paramètres |
