Rank::CMS - identyfikacja ponad 600 rodzajów CMS na podstawie sygnatur. Wykrywa wszystkie popularne fora, blogi, CMS, księgi gości, wiki i wiele innych typów silników
Przegląd scrapera

Rank::CMS – identyfikuje ponad 600 rodzajów CMS na podstawie sygnatur. Rozpoznaje wszystkie popularne fora, blogi, systemy CMS, księgi gości, wiki oraz wiele innych typów silników.Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera Rank::CMS do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, której potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.
Zbierane dane
- Nazwa CMS
- Nazwa kategorii
Lista obsługiwanych CMS
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Możliwości
- Wykrywanie 161 rodzajów CMS na podstawie sygnatur
- Rozpoznaje wszystkie popularne fora, blogi, CMS, księgi gości, wiki i wiele innych typów silników na podstawie dużej i wysokiej jakości bazy sygnatur Wappalyzer (łącznie ponad 800 technologii)
- Możliwość wyboru kategorii lub konkretnych silników do rozpoznawania
- Możliwość wskazania dowolnego User-Agenta
- Możliwość modyfikacji i uzupełniania bazy sygnatur
- Możliwość użycia własnego pliku z sygnaturami (plik custom-apps.json pod względem struktury powinien być analogiczny do zwykłego apps.json i znajdować się w ścieżce files/Rank-CMS; jeśli wszystko zostanie wykonane poprawnie, w opcji Check list na końcu listy pojawią się nowe kategorie i aplikacje do wyboru)
Warianty wykorzystania
- Filtrowanie według silników
- Sortowanie dużych baz według silników
Zapytania
Jako zapytania należy podać listę domen, na przykład:
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Warianty wyprowadzania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON
Wynik domyślny
Format wyniku:
$query - $cms\n
Przykład wyniku:
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
Zapisywanie w formacie SQL
Format wyniku:
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Przykład wyniku:
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Zrzut wyników do JSON
Ogólny format wyniku:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Tekst początkowy:
[
Tekst końcowy:
]
Przykład wyniku:
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Aby opcje "Prepend text" i "Append text" były dostępne w Edytorze zadań, należy aktywować "More options".
Możliwe ustawienia
| Parametr | Wartość domyślna | Opis |
|---|---|---|
| User agent | _Automatycznie podstawiany jest user-agent aktualnej wersji Chrome_ | Pozwala przedstawiać się jako konkretna przeglądarka lub wyszukiwarka |
| Log long running regex | ☐ | Określa, czy zapisywać powolne wyrażenia regularne |
| Check list | cms, message-boards, wikis | Wybór silników do sprawdzenia |
| Emulate browser headers | ☑ | Możliwość emulacji nagłówków przeglądarki |
| RegExp engine | RE2 | Wybór silnika wyrażeń regularnych |
| Use Net::HTTP | ☐ | Możliwość użycia scrapera Net::HTTP do zapytań |
| Net::HTTP preset | default | Możliwość wskazania presetu z ustawieniami |
