Chuyển đến nội dung chính

Rank::CMS - xác định hơn 600 loại CMS dựa trên các dấu hiệu. Xác định tất cả các diễn đàn, blog, CMS, guestbook, wiki phổ biến và nhiều loại mã nguồn khác

Tổng quan về công cụ cào dữ liệu

Tổng quan về công cụ cào dữ liệuRank::CMSRank::CMS – xác định hơn 600 loại CMS dựa trên các dấu hiệu. Xác định tất cả các diễn đàn, blog, CMS, sổ khách, wiki phổ biến và nhiều loại mã nguồn khác.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ Rank::CMS để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện theo định dạng và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Tên CMS
  • Tên danh mục

Danh sách các CMS được hỗ trợ

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

Tính năng

  • Xác định 161 loại CMS dựa trên các dấu hiệu
  • Xác định tất cả các diễn đàn, blog, CMS, guestbook, wiki phổ biến và nhiều loại công cụ khác dựa trên cơ sở dữ liệu dấu hiệu lớn và chất lượng của Wappalyzer (tổng cộng hơn 800 công nghệ)
  • Khả năng chọn danh mục hoặc các công cụ cụ thể để nhận diện
  • Khả năng chỉ định User-Agent tùy chỉnh
  • Khả năng thay đổi và bổ sung cơ sở dữ liệu dấu hiệu
  • Khả năng sử dụng tệp dấu hiệu riêng (tệp custom-apps.json phải có cấu trúc tương tự như tệp apps.json thông thường và nằm theo đường dẫn files/Rank-CMS, nếu mọi thứ được thực hiện đúng, các danh mục và ứng dụng mới sẽ xuất hiện trong tùy chọn Check list ở cuối danh sách để lựa chọn)

Ứng dụng

  • Lọc theo công cụ (engine)
  • Phân loại các cơ sở dữ liệu lớn theo công cụ

Truy vấn

Trong phần truy vấn, bạn cần nhập danh sách các tên miền, ví dụ:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

Các ví dụ về xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc, ví dụ như CSV hoặc JSON

Xuất mặc định

Định dạng kết quả:

$query - $cms\n

Ví dụ kết quả:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

Lưu dưới định dạng SQL

Định dạng kết quả:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

Ví dụ kết quả:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

Xuất kết quả sang JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
mẹo

Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".

Các thiết lập có thể có

Tham sốGiá trị mặc địnhMô tả
User agent_Tự động chèn user-agent của phiên bản Chrome hiện tại_Cho phép giả danh một trình duyệt hoặc công cụ tìm kiếm cụ thể
Log long running regexXác định xem có ghi lại các biểu thức chính quy chậm hay không
Check listcms, message-boards, wikisLựa chọn các công cụ để kiểm tra
Emulate browser headersKhả năng mô phỏng các tiêu đề trình duyệt
RegExp engineRE2Lựa chọn công cụ biểu thức chính quy
Use Net::HTTPKhả năng sử dụng công cụ cào dữ liệu Net::HTTPNet::HTTP cho các yêu cầu
Net::HTTP presetdefaultKhả năng chỉ định mẫu thiết lập sẵn với các cài đặt