メインコンテンツへスキップ

Rank::Archive - ウェブアーカイブにおけるサイトの初回および最終キャッシュ日のスクレイパー

スクレイパーの概要

スクレイパーの概要Rank::ArchiveRank::Archive – Web Archiveのスクレイパーで、最初と最後のキャッシュ日、および保存されたサイトのコピー数を取得します。

A-Parserの機能により、Rank::Archive スクレイパーのスクレイピング設定を将来の使用のために保存(プリセット)したり、スクレイピングスケジュールの設定など、多くのことが可能です。

内蔵された強力なテンプレートエンジン Template Toolkit により、結果にさらなるロジックを適用し、JSON、SQL、CSV を含む様々なフォーマットでデータを出力するなど、必要な形式と構造で結果を保存できます。

収集データ

  • 初回キャッシュ日
  • 最終キャッシュ日
  • 保存されたサイトのコピー数
収集データ

ユースケース

  • ウェブアーカイブにおけるサイトのコピーの有無、および初回と最終のインデックス日の確認
  • ドメインの評価:ウェブアーカイブ内のコピー数が多いことは、サイトのトラフィックが多いことを示唆する可能性があります

クエリ

クエリとして、検索対象のサイトのドメインを指定する必要があります。例:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

結果の出力例

A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。

デフォルト出力

結果フォーマット:

$query: $first - $last ($times times)\n

結果には、サイト、初回と最終のインデックス日、および保存されたサイトのコピー数が表示されます:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

SQL形式での保存

結果フォーマット:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

結果の例:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

JSONへの結果ダンプ

共通結果形式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

開始テキスト:

[

終了テキスト:

]

結果の例:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
ヒント

タスクエディタで「Prepend text」と「Append text」のオプションを利用するには、「More options」を有効にする必要があります。

設定