メインコンテンツへスキップ

Rank::CMS - 特徴に基づいた600種類以上のCMS判定。すべての主要なフォーラム、ブログ、CMS、ゲストブック、Wiki、その他多数のエンジンタイプを特定します

スクレイパーの概要

スクレイパーの概要Rank::CMSRank::CMS – 特徴に基づいて600種類以上のCMSを特定します。すべての主要なフォーラム、ブログ、CMS、ゲストブック、Wiki、その他多数のエンジンタイプを特定できます。

A-Parserの機能により、Rank::CMSスクレイパーのスクレイピング設定を後で利用するために保存(プリセット)したり、スクレイピングのスケジュールを設定したりすることが可能です。

内蔵された強力なテンプレートエンジン Template Toolkit により、結果に独自のロジックを適用し、JSON, SQL, CSVを含む様々なフォーマットで、必要な形式と構造で結果を保存できます。

収集データ

  • CMS名
  • カテゴリ名

サポートされているCMSリスト

"1C-Bitrix", "2z Project", "3dCart", "Accessible Portal", "actionhero.js", "Adobe CQ5", "Ametys", "Amiro.CMS", "AMPcms", "Anchor CMS", "AsciiDoc", "Backdrop", "Banshee", "BIGACE", "Bolt", "BrowserCMS", "Business Catalyst", "Cargo", "Chameleon", "Ckan", "CMS Made Simple", "CMSimple", "Concrete5", "Contao", "Contenido", "Contens", "ContentBox", "Cotonti", "CPG Dragonfly", "CppCMS", "Craft CMS", "Danneo CMS", "DataLife Engine", "DedeCMS", "Django CMS", "DNN", "Dotclear", "Drupal", "DTG", "Dynamicweb", "e107", "Eleanor CMS", "EPiServer", "eSyndiCat", "ExpressionEngine", "eZ Publish", "FlexCMP", "GetSimple CMS", "Google Sites", "Graffiti CMS", "Grav", "Green Valley CMS", "GX WebManager", "Hippo", "Hotaru CMS", "IBM WebSphere Portal", "ImpressCMS", "ImpressPages", "Indexhibit", "Indico", "InProces", "InstantCMS", "io4 CMS", "Jalios", "Jekyll", "Joomla", "Kentico CMS", "Koala Framework", "Koken", "Kolibri CMS", "Komodo CMS", "Koobi", "Kooboo CMS", "Kotisivukone", "LEPTON", "Liferay", "LightMon Engine", "Lithium", "LiveStreet CMS", "Locomotive", "M.R. Inc Wild CMS", "Mambo", "MaxSite CMS", "Methode", "Microsoft SharePoint", "MODx", "Moguta.CMS", "Mono.net", "Movable Type", "Mozard Suite", "Mura CMS", "Mynetcap", "Nepso", "October CMS", "Odoo", "OpenCms", "openEngine", "OpenNemas", "OpenText Web Solutions", "Ophal", "Orchard CMS", "Pagekit", "PANSITE", "papaya CMS", "PencilBlue", "Percussion", "PHP-Fusion", "phpCMS", "phpSQLiteCMS", "phpwind", "Pligg", "Plone", "Posterous", "Quick.CMS", "RBS Change", "RCMS", "RiteCMS", "Roadiz CMS", "S.Builder", "Sarka-SPIP", "SDL Tridion", "Serendipity", "Silva", "SilverStripe", "SIMsite", "Sitecore", "SiteEdit", "Sivuviidakko", "SmartSite", "sNews", "Solodev", "SPIP", "Squarespace", "Squiz Matrix", "Subrion", "swift.engine", "Textpattern CMS", "Thelia", "TiddlyWiki", "Tiki Wiki CMS Groupware", "Twilight CMS", "TYPO3 CMS", "TYPO3 Neos", "uCore", "Umbraco", "Unbounce", "Ushahidi", "viennaCMS", "Vignette", "VIVVO", "webEdition", "WebGUI", "WebPublisher", "Webs", "WebsiteBaker", "WebsPlanet", "Weebly", "Wix", "Wolf CMS", "WordPress", "XOOPS"

機能

  • 特徴に基づいた161種類のCMSの特定
  • Wappalyzerの広範で高品質な特徴ベース(合計800以上のテクノロジー)に基づき、すべての主要なフォーラム、ブログ、CMS、ゲストブック、Wiki、その他多くのエンジンタイプを特定
  • 認識対象のカテゴリまたは特定のエンジンを選択可能
  • 任意のUser-Agentを指定可能
  • 特徴ベースの変更および追加が可能
  • 独自の特徴ファイルを使用可能(custom-apps.jsonファイルは構造が通常のapps.jsonと同様である必要があり、files/Rank-CMSパスに配置します。正しく設定されると、Check listオプションのリストの最後に新しいカテゴリとアプリケーションが表示されます)

ユースケース

  • エンジンによるフィルタリング
  • エンジンによる大規模データベースのソート

クエリ

クエリとしてドメインのリストを指定する必要があります。例:

http://a-parser.com/  
http://techcrunch.com/
http://vkusnologia.ru/
http://blogautomobile.fr/
http://avto-blogger.ru/
http://www.cyberforum.ru/

結果出力例

A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。

デフォルト出力

結果フォーマット:

$query - $cms\n

結果の例:

http://blogautomobile.fr/- WordPress  
http://a-parser.com/ - XenForo
http://vkusnologia.ru/ - WordPress
http://avto-blogger.ru/ - WordPress
http://techcrunch.com/ - WordPress
http://www.cyberforum.ru/ - 1C-Bitrix

SQL形式での保存

結果フォーマット:

[% "INSERT INTO cms VALUES('" _ query _ "', '" _ cms _ "', '" _ cat _ "')\n" %]

結果の例:

INSERT INTO cms VALUES('http://yandex.ru', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://vk.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://facebook.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://a-parser.com', 'WordPress', 'CMS')
INSERT INTO cms VALUES('http://youtube.com', 'unknown', 'unknown')
INSERT INTO cms VALUES('http://google.com', 'unknown', 'unknown')

JSONへの結果ダンプ

共通結果形式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.cms = p1.cms;
obj.cat = p1.cat;

obj.json %]

開始テキスト:

[

終了テキスト:

]

結果の例:

[
{"cat":"unknown","cms":"unknown","query":"http://google.com"},
{"cat":"unknown","cms":"unknown","query":"http://yandex.ru"},
{"cat":"unknown","cms":"unknown","query":"http://facebook.com"},
{"cat":"CMS","cms":"WordPress","query":"http://a-parser.com"},
{"cat":"unknown","cms":"unknown","query":"http://vk.com"},
{"cat":"unknown","cms":"unknown","query":"http://youtube.com"}
]
ヒント

タスクエディタで「Prepend text」と「Append text」のオプションを表示するには、「More options」を有効にする必要があります。

設定可能な項目

パラメータデフォルト値説明
User agent_最新バージョンのChromeのUser-Agentが自動的に設定されます_特定のブラウザや検索エンジンとして振る舞うことができます
Log long running regex低速な正規表現を記録するかどうかを決定します
Check listcms, message-boards, wikisチェックするエンジンを選択します
Emulate browser headersブラウザのヘッダーをエミュレートできます
RegExp engineRE2正規表現エンジンの選択
Use Net::HTTPリクエストに Net::HTTPNet::HTTP スクレイパーを使用できます
Net::HTTP presetdefault設定プリセットを指定できます