Rank::CMS - Belirtilere dayalı 600'den fazla CMS türü tespiti. Tüm popüler forumları, blogları, CMS'leri, ziyaretçi defterlerini, wikileri ve diğer birçok motor türünü belirler
Veri kazıyıcı incelemesi

Rank::CMS – belirtilere dayanarak 600'den fazla CMS türünü tanımlar. Tüm popüler forumları, blogları, CMS'leri, ziyaretçi defterlerini, wikileri ve diğer birçok motor türünü tanımlar.A-Parser işlevselliği, Rank::CMS veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (şablonlar), veri çekme zamanlamasını ayarlamanıza ve çok daha fazlasına olanak tanır.
Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçimde ve yapıda mümkündür.
Toplanan veriler
- CMS Adı
- Kategori Adı
Desteklenen CMS listesi
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Özellikler
- Belirtilere dayalı 161 CMS türünün tanımlanması
- Geniş ve kaliteli Wappalyzer belirti tabanına (toplamda 800'den fazla teknoloji) dayanarak tüm popüler forumları, blogları, CMS'leri, ziyaretçi defterlerini, wikileri ve diğer birçok motor türünü tanımlar
- Tanımlama için kategori veya belirli motorları seçebilme imkanı
- Özel bir User-Agent belirtebilme imkanı
- Belirti tabanını değiştirme ve tamamlama imkanı
- Kendi belirti dosyanızı kullanabilme imkanı (custom-apps.json dosyası yapı olarak normal apps.json ile aynı olmalı ve files/Rank-CMS yolunda bulunmalıdır; her şey doğru yapıldıysa, Check list seçeneğinde listenin sonunda seçim için yeni kategoriler ve uygulamalar görünecektir)
Kullanım senaryoları
- Motorlara göre filtreleme
- Büyük veritabanlarını motorlara göre sıralama
Sorgular
Sorgu olarak alan adlarının listesini belirtmeniz gerekir, örneğin:
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Sonuç çıktı seçenekleri
A-Parser, yerleşik şablon motoru Template Toolkit sayesinde esnek sonuç formatlamayı destekler; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda çıktı almasına olanak tanır.
Varsayılan çıktı
Sonuç formatı:
$query - $cms\n
Sonuç örneği:
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
SQL formatında kaydetme
Sonuç formatı:
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Sonuç örneği:
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Sonuçların JSON formatında dökümü
Genel sonuç formatı:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Başlangıç metni:
[
Bitiş metni:
]
Sonuç örneği:
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
"Prepend text" ve "Append text" seçeneklerinin Görev Düzenleyici'de kullanılabilir olması için "More options" kısmını etkinleştirmeniz gerekir.
Olası ayarlar
| Parametre | Varsayılan değer | Açıklama |
|---|---|---|
| User agent | _Otomatik olarak güncel Chrome sürümünün user-agent'ı eklenir_ | Belirli bir tarayıcı veya arama motoru gibi görünmeyi sağlar |
| Log long running regex | ☐ | Yavaş düzenli ifadelerin kaydedilip kaydedilmeyeceğini belirler |
| Check list | cms, message-boards, wikis | Kontrol edilecek motorların seçimi |
| Emulate browser headers | ☑ | Tarayıcı başlıklarını emüle etme imkanı |
| RegExp engine | RE2 | Düzenli ifade motoru seçimi |
| Use Net::HTTP | ☐ | İstekler için Net::HTTP veri kazıyıcısını kullanma imkanı |
| Net::HTTP preset | default | Ayarları içeren bir şablon belirtebilme imkanı |
