Hoppa till huvudinnehåll

Rank::CMS - identifiering av över 600 typer av CMS baserat på kännetecken. Identifierar alla populära forum, bloggar, CMS, gästböcker, wikis och många andra typer av motorer

Översikt av scrapern

Översikt av scrapernRank::CMSRank::CMS – identifierar över 600 typer av CMS baserat på kännetecken. Den identifierar alla populära forum, bloggar, CMS, gästböcker, wikis och många andra typer av motorer.

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för scrapern Rank::CMS för framtida bruk (förinställningar), ställa in scheman för dataskrapning och mycket mer.

Resultaten kan sparas i precis det format och den struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa extra logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Data som samlas in

  • CMS-namn
  • Kategorinamn

Lista över CMS som stöds

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Funktioner

  • Identifiering av 161 typer av CMS baserat på kännetecken
  • Identifierar alla populära forum, bloggar, CMS, gästböcker, wikis och många andra typer av motorer baserat på en stor och högkvalitativ databas med kännetecken från Wappalyzer (totalt över 800 teknologier)
  • Möjlighet att välja kategori eller specifika motorer för igenkänning
  • Möjlighet att ange en anpassad User-Agent
  • Möjlighet att ändra och komplettera databasen med kännetecken
  • Möjlighet att använda en egen fil med kännetecken (filen custom-apps.json ska ha samma struktur som den vanliga apps.json och ligga i sökvägen files/Rank-CMS; om allt är rätt gjort kommer nya kategorier och applikationer att visas i slutet av listan i alternativet Check list)

Användningsfall

  • Filtrering efter motorer
  • Sortering av stora databaser efter motorer

Frågor

Som frågor ska en lista med domäner anges, till exempel:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Alternativ för resultatvisning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att visa resultat i valfri form, samt i strukturerad form som CSV eller JSON

Standardutdata

Resultatformat:

$query - $cms\n

Exempel på resultat:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Spara i SQL-format

Resultatformat:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Exempel på resultat:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Dumpa resultat till JSON

Allmänt resultatformat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Starttext:

[

Sluttext:

]

Exempel på resultat:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
tips

För att alternativen "Prepend text" och "Append text" ska vara tillgängliga i Task Editor, måste du aktivera "More options".

Möjliga inställningar

ParameterStandardvärdeBeskrivning
User agent_Automatiskt används user-agent från den senaste Chrome-versionen_Gör det möjligt att identifiera sig som en specifik webbläsare eller sökmotor
Log long running regexBestämmer om långsamma reguljära uttryck ska loggas
Check listcms, message-boards, wikisVal av motorer att kontrollera
Emulate browser headersMöjlighet att emulera webbläsarheadrar
RegExp engineRE2Val av motor för reguljära uttryck
Use Net::HTTPMöjlighet att använda scrapern Net::HTTPNet::HTTP för förfrågningar
Net::HTTP presetdefaultMöjlighet att ange en förinställning med inställningar