Zum Hauptinhalt springen

Rank::CMS - Erkennung von über 600 CMS-Typen basierend auf Merkmalen. Erkennt alle gängigen Foren, Blogs, CMS, Gästebücher, Wikis und viele andere Engine-Typen

Übersicht des Parsers

Übersicht des ParsersRank::CMSRank::CMS – identifiziert über 600 Arten von CMS basierend auf Merkmalen. Erkennt alle gängigen Foren, Blogs, CMS, Gästebücher, Wikis und viele andere Arten von Engines.

Die Funktionalität von A-Parser ermöglicht es, die Datenerfassung-Einstellungen des Parsers Rank::CMS für die spätere Verwendung zu speichern (Presets), Zeitpläne für die Datenerfassung festzulegen und vieles mehr.

Das Speichern der Ergebnisse ist in der von Ihnen benötigten Form und Struktur möglich, dank der integrierten leistungsstarken Template-Engine Template Toolkit, die es erlaubt, zusätzliche Logik auf die Ergebnisse anzuwenden und Daten in verschiedenen Formaten auszugeben, einschließlich JSON, SQL und CSV.

Gesammelte Daten

  • Name des CMS
  • Name der Kategorie

Liste der unterstützten CMS

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Möglichkeiten

  • Identifizierung von 161 CMS-Typen basierend auf Merkmalen
  • Erkennt alle gängigen Foren, Blogs, CMS, Gästebücher, Wikis und viele andere Engine-Typen basierend auf der großen und hochwertigen Wappalyzer-Merkmal-Datenbank (insgesamt über 800 Technologien)
  • Möglichkeit, eine Kategorie oder spezifische Engines zur Erkennung auszuwählen
  • Möglichkeit, einen benutzerdefinierten User-Agent anzugeben
  • Möglichkeit, die Merkmal-Datenbank zu ändern und zu ergänzen
  • Möglichkeit, eine eigene Datei mit Merkmalen zu verwenden (die Datei custom-apps.json muss strukturell der normalen apps.json entsprechen und sich im Pfad files/Rank-CMS befinden; wenn alles korrekt gemacht wurde, erscheinen in der Option Check list am Ende der Liste neue Kategorien und Anwendungen zur Auswahl)

Varianten der Verwendung

  • Filterung nach Engines
  • Sortierung großer Datenbanken nach Engines

Anfragen

Als Anfragen muss eine Liste von Domains angegeben werden, zum Beispiel:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Varianten der Ergebnisausgabe

A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was es ermöglicht, Ergebnisse in beliebiger Form sowie strukturiert auszugeben, zum Beispiel als CSV oder JSON

Standardausgabe

Ergebnisformat:

$query - $cms\n

Beispielergebnis:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Speichern im SQL-Format

Ergebnisformat:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Beispielergebnis:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Ergebnis-Dump in JSON

Allgemeines Ausgabeformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Anfangstext:

[

Endtext:

]

Beispielergebnis:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Tipp

Damit die Optionen "Anfangstext" und "Endtext" im Task-Editor verfügbar sind, muss "Mehr Optionen" aktiviert werden.

Mögliche Einstellungen

ParameterStandardwertBeschreibung
User agent_Automatisch wird der User-Agent der aktuellen Chrome-Version eingefügt_Ermöglicht es, sich als bestimmter Browser oder Suchmaschine auszugeben
Log long running regexBestimmt, ob langsame reguläre Ausdrücke aufgezeichnet werden sollen
Check listcms, message-boards, wikisAuswahl der zu prüfenden Engines
Emulate browser headersMöglichkeit, Browser-Header zu emulieren
RegExp engineRE2Auswahl der Engine für reguläre Ausdrücke
Use Net::HTTPMöglichkeit, den Parser Net::HTTPNet::HTTP für Anfragen zu verwenden
Net::HTTP presetdefaultMöglichkeit, ein Preset mit Einstellungen anzugeben