メインコンテンツへスキップ

Rank::Curlie - Curlieディレクトリ(DMOZ代替)におけるサイト登録状況の確認

img

スクレイパーの概要

Curlieは、世界中のボランティアエディターの広大なコミュニティによって作成・維持されている、ウェブ上で最大かつ最も包括的な人間編集によるディレクトリです。以前はDMOZおよびOpen Directory Project (ODP)として知られていました。

組み込みの強力なテンプレートエンジン Template Toolkit により、結果に独自のロジックを適用し、JSON、SQL、CSVを含む様々な形式で、必要な構造のままデータを保存することが可能です。

収集データ

データは curlie.org サービスから収集されます:

  • Curlieディレクトリ(旧DMOZ)におけるサイトの掲載有無

ユースケース

  • サイトが curlie.org ディレクトリに登録されているかの確認

クエリ

クエリとしてドメインのリストを指定する必要があります。例:

bing.com  
learn.javascript.ru
trello.com
ellistalks.com
megastom.ru

結果の出力例

A-Parserは、組み込みのテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSV、JSONなどの構造化された形式で結果を出力できます。

デフォルト出力

結果フォーマット:

$query: $exists\n

結果には、ドメインと、curlie.org ディレクトリへの掲載有無(1)または未掲載(0)が表示されます:

bing.com: 1
trello.com: 1
megastom.ru: 0
ellistalks.com: 1
learn.javascript.ru: 1

CSVテーブルへの出力

結果フォーマット:

[% tools.CSVline(query, exists) %]

結果の例:

"trello.com",1
"bing.com",1
"ellistalks.com",1
"learn.javascript.ru",1
"megastom.ru",0

設定可能な項目