Rank::CMS - detectie van meer dan 600 soorten CMS op basis van kenmerken. Identificeert alle populaire forums, blogs, CMS, gastenboeken, wiki's en vele andere soorten engines
Overzicht van de scraper

Rank::CMS – identificeert meer dan 600 soorten CMS op basis van kenmerken. Identificeert alle populaire forums, blogs, CMS, gastenboeken, wiki's en vele andere soorten engines.De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de Rank::CMS scraper op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
- Naam van het CMS
- Naam van de categorie
Lijst met ondersteunde CMS-systemen
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Mogelijkheden
- Identificatie van 161 soorten CMS op basis van kenmerken
- Identificeert alle populaire forums, blogs, CMS, gastenboeken, wiki's en vele andere soorten engines op basis van een grote en kwalitatieve database met kenmerken van Wappalyzer (in totaal meer dan 800 technologieën)
- Mogelijkheid om een categorie of specifieke engines te selecteren voor herkenning
- Mogelijkheid om een aangepaste User-Agent op te geven
- Mogelijkheid om de database met kenmerken te wijzigen en aan te vullen
- Mogelijkheid om een eigen bestand met kenmerken te gebruiken (het bestand custom-apps.json moet qua structuur identiek zijn aan het standaard apps.json en zich in het pad files/Rank-CMS bevinden; als alles correct is gedaan, verschijnen er nieuwe categorieën en applicaties in de optie Check list aan het einde van de lijst)
Varianten van gebruik
- Filteren op engines
- Sorteren van grote databases op engines
Query's
Als query's moet een lijst met domeinen worden opgegeven, bijvoorbeeld:
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Varianten van resultaatweergave
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden weergegeven, evenals in gestructureerde formaten zoals CSV of JSON
Standaard uitvoer
Resultaatformaat:
$query - $cms\n
Voorbeeld van resultaat:
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
Opslaan in SQL-formaat
Resultaatformaat:
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Voorbeeld van resultaat:
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Dump van resultaten in JSON
Algemeen resultaatformaat:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Begintekst:
[
Eindtekst:
]
Voorbeeld van resultaat:
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Om de opties "Prepend text" en "Append text" beschikbaar te maken in de Taak-editor, moet "More options" worden geactiveerd.
Mogelijke instellingen
| Parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| User agent | _Automatisch wordt de user-agent van de huidige Chrome-versie ingevoegd_ | Hiermee kunt u zich voordoen als een specifieke browser of zoekmachine |
| Log long running regex | ☐ | Bepaalt of trage reguliere expressies moeten worden gelogd |
| Check list | cms, message-boards, wikis | Selectie van engines om te controleren |
| Emulate browser headers | ☑ | Mogelijkheid om browserheaders te emuleren |
| RegExp engine | RE2 | Keuze van de engine voor reguliere expressies |
| Use Net::HTTP | ☐ | Mogelijkheid om de scraper Net::HTTP te gebruiken voor aanvragen |
| Net::HTTP preset | default | Mogelijkheid om een preset met instellingen op te geven |
