Ga naar de hoofdinhoud

Rank::CMS - detectie van meer dan 600 soorten CMS op basis van kenmerken. Identificeert alle populaire forums, blogs, CMS, gastenboeken, wiki's en vele andere soorten engines

Overzicht van de scraper

Overzicht van de scraperRank::CMSRank::CMS – identificeert meer dan 600 soorten CMS op basis van kenmerken. Identificeert alle populaire forums, blogs, CMS, gastenboeken, wiki's en vele andere soorten engines.

De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de Rank::CMS scraper op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Verzamelde gegevens

  • Naam van het CMS
  • Naam van de categorie

Lijst met ondersteunde CMS-systemen

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Mogelijkheden

  • Identificatie van 161 soorten CMS op basis van kenmerken
  • Identificeert alle populaire forums, blogs, CMS, gastenboeken, wiki's en vele andere soorten engines op basis van een grote en kwalitatieve database met kenmerken van Wappalyzer (in totaal meer dan 800 technologieën)
  • Mogelijkheid om een categorie of specifieke engines te selecteren voor herkenning
  • Mogelijkheid om een aangepaste User-Agent op te geven
  • Mogelijkheid om de database met kenmerken te wijzigen en aan te vullen
  • Mogelijkheid om een eigen bestand met kenmerken te gebruiken (het bestand custom-apps.json moet qua structuur identiek zijn aan het standaard apps.json en zich in het pad files/Rank-CMS bevinden; als alles correct is gedaan, verschijnen er nieuwe categorieën en applicaties in de optie Check list aan het einde van de lijst)

Varianten van gebruik

  • Filteren op engines
  • Sorteren van grote databases op engines

Query's

Als query's moet een lijst met domeinen worden opgegeven, bijvoorbeeld:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Varianten van resultaatweergave

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden weergegeven, evenals in gestructureerde formaten zoals CSV of JSON

Standaard uitvoer

Resultaatformaat:

$query - $cms\n

Voorbeeld van resultaat:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Opslaan in SQL-formaat

Resultaatformaat:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Voorbeeld van resultaat:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Dump van resultaten in JSON

Algemeen resultaatformaat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Begintekst:

[

Eindtekst:

]

Voorbeeld van resultaat:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
tip

Om de opties "Prepend text" en "Append text" beschikbaar te maken in de Taak-editor, moet "More options" worden geactiveerd.

Mogelijke instellingen

ParameterStandaardwaardeBeschrijving
User agent_Automatisch wordt de user-agent van de huidige Chrome-versie ingevoegd_Hiermee kunt u zich voordoen als een specifieke browser of zoekmachine
Log long running regexBepaalt of trage reguliere expressies moeten worden gelogd
Check listcms, message-boards, wikisSelectie van engines om te controleren
Emulate browser headersMogelijkheid om browserheaders te emuleren
RegExp engineRE2Keuze van de engine voor reguliere expressies
Use Net::HTTPMogelijkheid om de scraper Net::HTTPNet::HTTP te gebruiken voor aanvragen
Net::HTTP presetdefaultMogelijkheid om een preset met instellingen op te geven