Vai al contenuto principale

Rank::CMS - rilevamento di oltre 600 tipi di CMS basato su impronte. Identifica tutti i forum popolari, blog, CMS, guestbook, wiki e molti altri tipi di motori

Panoramica dello scraper

Panoramica dello scraperRank::CMSRank::CMS – identifica oltre 600 tipi di CMS in base a specifici segnali. Rileva tutti i forum popolari, blog, CMS, guestbook, wiki e molti altri tipi di motori.

La funzionalità di A-Parser consente di salvare le impostazioni di scraping dello scraper Rank::CMS per un uso futuro (preset), impostare programmi di scraping e molto altro.

Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.

Dati raccolti

  • Nome del CMS
  • Nome della categoria

Elenco dei CMS supportati

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Funzionalità

  • Identificazione di 161 tipi di CMS basata su impronte digitali
  • Identifica tutti i forum popolari, blog, CMS, guestbook, wiki e molti altri tipi di motori basati sul database di impronte digitali ampio e di alta qualità di Wappalyzer (oltre 800 tecnologie in totale)
  • Possibilità di selezionare una categoria o motori specifici per il riconoscimento
  • Possibilità di specificare un User-Agent personalizzato
  • Possibilità di modificare e integrare il database delle impronte digitali
  • Possibilità di utilizzare il proprio file con le impronte digitali (il file custom-apps.json deve avere una struttura identica al normale apps.json e trovarsi nel percorso files/Rank-CMS; se tutto è fatto correttamente, nell'opzione Check list alla fine dell'elenco appariranno nuove categorie e applicazioni da selezionare)

Casi d'uso

  • Filtraggio per motori
  • Ordinamento di grandi database per motori

Query

Come query è necessario specificare un elenco di domini, ad esempio:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Output predefinito

Formato del risultato:

$query - $cms\n

Esempio di risultato:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Salvataggio in formato SQL

Formato del risultato:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Esempio di risultato:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Dump dei risultati in JSON

Formato comune del risultato:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Testo iniziale:

[

Testo finale:

]

Esempio di risultato:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
suggerimento

Affinché le opzioni "Prepend text" e "Append text" siano disponibili nell'Editor delle attività, è necessario attivare "More options".

Impostazioni possibili

ParametroValore predefinitoDescrizione
User agent_Viene inserito automaticamente lo user-agent della versione corrente di Chrome_Consente di presentarsi come un browser o un motore di ricerca specifico
Log long running regexDetermina se registrare le espressioni regolari lente
Check listcms, message-boards, wikisSelezione dei motori da controllare
Emulate browser headersPossibilità di emulare gli header del browser
RegExp engineRE2Scelta del motore delle espressioni regolari
Use Net::HTTPPossibilità di utilizzare lo scraper Net::HTTPNet::HTTP per le richieste
Net::HTTP presetdefaultPossibilità di specificare un preset con le impostazioni