跳转到主要内容

Rank::Archive - 网站在 Web Archive 中首次和最后一次缓存日期的爬虫工具

爬虫工具概览

爬虫工具概览Rank::ArchiveRank::Archive – Web Archive 爬虫工具,用于确定网站首次和最后一次被抓取缓存的日期,以及已保存的副本数量。

A-Parser 的功能允许保存 Rank::Archive 爬虫工具的抓取设置以便后续使用(预设),设置数据抓取计划等等。

由于内置了强大的 Template Toolkit 模板引擎,可以将结果保存为您需要的任何形式和结构,该引擎允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

采集的数据

  • 首次缓存日期
  • 最后缓存日期
  • 网站保存副本的数量
采集的数据

应用场景

  • 检查 Web Archive 中是否存在网站副本,以及首次和最后一次副本的索引日期
  • 域名评估:Web Archive 中大量的网站副本可能表明该网站具有较高的访问量

查询

需要指定目标网站的域名作为查询,例如:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

结果输出选项

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,这使其能够以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

默认输出

结果格式:

$query: $first - $last ($times times)\n

结果中显示了网站、首次和最后一次索引的日期以及网站保存副本的数量:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

以 SQL 格式保存

结果格式:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

结果示例:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

将结果转储为 JSON

通用结果格式:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

起始文本:

[

结束文本:

]

结果示例:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
提示

要在任务编辑器中使用“Prepend text”和“Append text”选项,需要激活“More options”。

可用设置