Rank::CMS - rilevamento di oltre 600 tipi di CMS basato su impronte. Identifica tutti i forum popolari, blog, CMS, guestbook, wiki e molti altri tipi di motori
Panoramica dello scraper

Rank::CMS – identifica oltre 600 tipi di CMS in base a specifici segnali. Rileva tutti i forum popolari, blog, CMS, guestbook, wiki e molti altri tipi di motori.La funzionalità di A-Parser consente di salvare le impostazioni di scraping dello scraper Rank::CMS per un uso futuro (preset), impostare programmi di scraping e molto altro.
Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV.
Dati raccolti
- Nome del CMS
- Nome della categoria
Elenco dei CMS supportati
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Funzionalità
- Identificazione di 161 tipi di CMS basata su impronte digitali
- Identifica tutti i forum popolari, blog, CMS, guestbook, wiki e molti altri tipi di motori basati sul database di impronte digitali ampio e di alta qualità di Wappalyzer (oltre 800 tecnologie in totale)
- Possibilità di selezionare una categoria o motori specifici per il riconoscimento
- Possibilità di specificare un User-Agent personalizzato
- Possibilità di modificare e integrare il database delle impronte digitali
- Possibilità di utilizzare il proprio file con le impronte digitali (il file custom-apps.json deve avere una struttura identica al normale apps.json e trovarsi nel percorso files/Rank-CMS; se tutto è fatto correttamente, nell'opzione Check list alla fine dell'elenco appariranno nuove categorie e applicazioni da selezionare)
Casi d'uso
- Filtraggio per motori
- Ordinamento di grandi database per motori
Query
Come query è necessario specificare un elenco di domini, ad esempio:
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Esempi di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON
Output predefinito
Formato del risultato:
$query - $cms\n
Esempio di risultato:
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
Salvataggio in formato SQL
Formato del risultato:
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Esempio di risultato:
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Dump dei risultati in JSON
Formato comune del risultato:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Testo iniziale:
[
Testo finale:
]
Esempio di risultato:
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Affinché le opzioni "Prepend text" e "Append text" siano disponibili nell'Editor delle attività, è necessario attivare "More options".
Impostazioni possibili
| Parametro | Valore predefinito | Descrizione |
|---|---|---|
| User agent | _Viene inserito automaticamente lo user-agent della versione corrente di Chrome_ | Consente di presentarsi come un browser o un motore di ricerca specifico |
| Log long running regex | ☐ | Determina se registrare le espressioni regolari lente |
| Check list | cms, message-boards, wikis | Selezione dei motori da controllare |
| Emulate browser headers | ☑ | Possibilità di emulare gli header del browser |
| RegExp engine | RE2 | Scelta del motore delle espressioni regolari |
| Use Net::HTTP | ☐ | Possibilità di utilizzare lo scraper Net::HTTP per le richieste |
| Net::HTTP preset | default | Possibilità di specificare un preset con le impostazioni |
