Przejdź do treści głównej

Rank::CMS - identyfikacja ponad 600 rodzajów CMS na podstawie sygnatur. Wykrywa wszystkie popularne fora, blogi, CMS, księgi gości, wiki i wiele innych typów silników

Przegląd scrapera

Przegląd scraperaRank::CMSRank::CMS – identyfikuje ponad 600 rodzajów CMS na podstawie sygnatur. Rozpoznaje wszystkie popularne fora, blogi, systemy CMS, księgi gości, wiki oraz wiele innych typów silników.

Funkcjonalność A-Parser pozwala zapisywać ustawienia scrapowania scrapera Rank::CMS do dalszego wykorzystania (presety), ustalać harmonogram scrapowania i wiele więcej.

Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, której potrzebujesz, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyprowadzać dane w różnych formatach, w tym JSON, SQL i CSV.

Zbierane dane

  • Nazwa CMS
  • Nazwa kategorii

Lista obsługiwanych CMS

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Możliwości

  • Wykrywanie 161 rodzajów CMS na podstawie sygnatur
  • Rozpoznaje wszystkie popularne fora, blogi, CMS, księgi gości, wiki i wiele innych typów silników na podstawie dużej i wysokiej jakości bazy sygnatur Wappalyzer (łącznie ponad 800 technologii)
  • Możliwość wyboru kategorii lub konkretnych silników do rozpoznawania
  • Możliwość wskazania dowolnego User-Agenta
  • Możliwość modyfikacji i uzupełniania bazy sygnatur
  • Możliwość użycia własnego pliku z sygnaturami (plik custom-apps.json pod względem struktury powinien być analogiczny do zwykłego apps.json i znajdować się w ścieżce files/Rank-CMS; jeśli wszystko zostanie wykonane poprawnie, w opcji Check list na końcu listy pojawią się nowe kategorie i aplikacje do wyboru)

Warianty wykorzystania

  • Filtrowanie według silników
  • Sortowanie dużych baz według silników

Zapytania

Jako zapytania należy podać listę domen, na przykład:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Warianty wyprowadzania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyprowadzać wyniki w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON

Wynik domyślny

Format wyniku:

$query - $cms\n

Przykład wyniku:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Zapisywanie w formacie SQL

Format wyniku:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Przykład wyniku:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Zrzut wyników do JSON

Ogólny format wyniku:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Tekst początkowy:

[

Tekst końcowy:

]

Przykład wyniku:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
wskazówka

Aby opcje "Prepend text" i "Append text" były dostępne w Edytorze zadań, należy aktywować "More options".

Możliwe ustawienia

ParametrWartość domyślnaOpis
User agent_Automatycznie podstawiany jest user-agent aktualnej wersji Chrome_Pozwala przedstawiać się jako konkretna przeglądarka lub wyszukiwarka
Log long running regexOkreśla, czy zapisywać powolne wyrażenia regularne
Check listcms, message-boards, wikisWybór silników do sprawdzenia
Emulate browser headersMożliwość emulacji nagłówków przeglądarki
RegExp engineRE2Wybór silnika wyrażeń regularnych
Use Net::HTTPMożliwość użycia scrapera Net::HTTPNet::HTTP do zapytań
Net::HTTP presetdefaultMożliwość wskazania presetu z ustawieniami