Ana içeriğe atla

Rank::CMS - Belirtilere dayalı 600'den fazla CMS türü tespiti. Tüm popüler forumları, blogları, CMS'leri, ziyaretçi defterlerini, wikileri ve diğer birçok motor türünü belirler

Veri kazıyıcı incelemesi

Veri kazıyıcı incelemesiRank::CMSRank::CMS – belirtilere dayanarak 600'den fazla CMS türünü tanımlar. Tüm popüler forumları, blogları, CMS'leri, ziyaretçi defterlerini, wikileri ve diğer birçok motor türünü tanımlar.

A-Parser işlevselliği, Rank::CMS veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (şablonlar), veri çekme zamanlamasını ayarlamanıza ve çok daha fazlasına olanak tanır.

Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçimde ve yapıda mümkündür.

Toplanan veriler

  • CMS Adı
  • Kategori Adı

Desteklenen CMS listesi

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Özellikler

  • Belirtilere dayalı 161 CMS türünün tanımlanması
  • Geniş ve kaliteli Wappalyzer belirti tabanına (toplamda 800'den fazla teknoloji) dayanarak tüm popüler forumları, blogları, CMS'leri, ziyaretçi defterlerini, wikileri ve diğer birçok motor türünü tanımlar
  • Tanımlama için kategori veya belirli motorları seçebilme imkanı
  • Özel bir User-Agent belirtebilme imkanı
  • Belirti tabanını değiştirme ve tamamlama imkanı
  • Kendi belirti dosyanızı kullanabilme imkanı (custom-apps.json dosyası yapı olarak normal apps.json ile aynı olmalı ve files/Rank-CMS yolunda bulunmalıdır; her şey doğru yapıldıysa, Check list seçeneğinde listenin sonunda seçim için yeni kategoriler ve uygulamalar görünecektir)

Kullanım senaryoları

  • Motorlara göre filtreleme
  • Büyük veritabanlarını motorlara göre sıralama

Sorgular

Sorgu olarak alan adlarının listesini belirtmeniz gerekir, örneğin:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Sonuç çıktı seçenekleri

A-Parser, yerleşik şablon motoru Template Toolkit sayesinde esnek sonuç formatlamayı destekler; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda çıktı almasına olanak tanır.

Varsayılan çıktı

Sonuç formatı:

$query - $cms\n

Sonuç örneği:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

SQL formatında kaydetme

Sonuç formatı:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Sonuç örneği:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Sonuçların JSON formatında dökümü

Genel sonuç formatı:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Başlangıç metni:

[

Bitiş metni:

]

Sonuç örneği:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
ipucu

"Prepend text" ve "Append text" seçeneklerinin Görev Düzenleyici'de kullanılabilir olması için "More options" kısmını etkinleştirmeniz gerekir.

Olası ayarlar

ParametreVarsayılan değerAçıklama
User agent_Otomatik olarak güncel Chrome sürümünün user-agent'ı eklenir_Belirli bir tarayıcı veya arama motoru gibi görünmeyi sağlar
Log long running regexYavaş düzenli ifadelerin kaydedilip kaydedilmeyeceğini belirler
Check listcms, message-boards, wikisKontrol edilecek motorların seçimi
Emulate browser headersTarayıcı başlıklarını emüle etme imkanı
RegExp engineRE2Düzenli ifade motoru seçimi
Use Net::HTTPİstekler için Net::HTTPNet::HTTP veri kazıyıcısını kullanma imkanı
Net::HTTP presetdefaultAyarları içeren bir şablon belirtebilme imkanı