Rank::CMS - xác định hơn 600 loại CMS dựa trên các dấu hiệu. Xác định tất cả các diễn đàn, blog, CMS, guestbook, wiki phổ biến và nhiều loại mã nguồn khác
Tổng quan về công cụ cào dữ liệu

Rank::CMS – xác định hơn 600 loại CMS dựa trên các dấu hiệu. Xác định tất cả các diễn đàn, blog, CMS, sổ khách, wiki phổ biến và nhiều loại mã nguồn khác.Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ Rank::CMS để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện theo định dạng và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Tên CMS
- Tên danh mục
Danh sách các CMS được hỗ trợ
"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"
Tính năng
- Xác định 161 loại CMS dựa trên các dấu hiệu
- Xác định tất cả các diễn đàn, blog, CMS, guestbook, wiki phổ biến và nhiều loại công cụ khác dựa trên cơ sở dữ liệu dấu hiệu lớn và chất lượng của Wappalyzer (tổng cộng hơn 800 công nghệ)
- Khả năng chọn danh mục hoặc các công cụ cụ thể để nhận diện
- Khả năng chỉ định User-Agent tùy chỉnh
- Khả năng thay đổi và bổ sung cơ sở dữ liệu dấu hiệu
- Khả năng sử dụng tệp dấu hiệu riêng (tệp custom-apps.json phải có cấu trúc tương tự như tệp apps.json thông thường và nằm theo đường dẫn files/Rank-CMS, nếu mọi thứ được thực hiện đúng, các danh mục và ứng dụng mới sẽ xuất hiện trong tùy chọn Check list ở cuối danh sách để lựa chọn)
Ứng dụng
- Lọc theo công cụ (engine)
- Phân loại các cơ sở dữ liệu lớn theo công cụ
Truy vấn
Trong phần truy vấn, bạn cần nhập danh sách các tên miền, ví dụ:
http://a-parser.com/
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/
Các ví dụ về xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc, ví dụ như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$query - $cms\n
Ví dụ kết quả:
http://blogautomobile.fr/- WordPress
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix
Lưu dưới định dạng SQL
Định dạng kết quả:
[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]
Ví dụ kết quả:
INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')
Xuất kết quả sang JSON
Định dạng kết quả chung:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;
obj.json %]
Văn bản bắt đầu:
[
Văn bản kết thúc:
]
Ví dụ kết quả:
[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".
Các thiết lập có thể có
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| User agent | _Tự động chèn user-agent của phiên bản Chrome hiện tại_ | Cho phép giả danh một trình duyệt hoặc công cụ tìm kiếm cụ thể |
| Log long running regex | ☐ | Xác định xem có ghi lại các biểu thức chính quy chậm hay không |
| Check list | cms, message-boards, wikis | Lựa chọn các công cụ để kiểm tra |
| Emulate browser headers | ☑ | Khả năng mô phỏng các tiêu đề trình duyệt |
| RegExp engine | RE2 | Lựa chọn công cụ biểu thức chính quy |
| Use Net::HTTP | ☐ | Khả năng sử dụng công cụ cào dữ liệu Net::HTTP cho các yêu cầu |
| Net::HTTP preset | default | Khả năng chỉ định mẫu thiết lập sẵn với các cài đặt |
