Chuyển đến nội dung chính

Rank::Archive - Công cụ cào dữ liệu ngày lưu trữ đầu tiên và cuối cùng của website trong Web Archive

Tổng quan về công cụ cào dữ liệu

Tổng quan về công cụ cào dữ liệuRank::ArchiveRank::Archive – công cụ cào dữ liệu Web Archive, xác định ngày lưu bộ nhớ đệm đầu tiên và cuối cùng, cũng như số lượng bản sao được lưu của trang web.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ Rank::Archive để sử dụng sau này (mẫu thiết lập sẵn), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Ngày lưu bộ nhớ đệm (cache) đầu tiên
  • Ngày lưu bộ nhớ đệm (cache) cuối cùng
  • Số lượng bản sao trang web đã lưu
Dữ liệu thu thập được

Các trường hợp sử dụng

  • Kiểm tra sự tồn tại của bản sao trang web trong kho lưu trữ web (Web Archive), cũng như ngày lập chỉ mục của bản sao đầu tiên và cuối cùng
  • Đánh giá tên miền: số lượng lớn bản sao trang web trong Web Archive có thể là dấu hiệu cho thấy trang web có lưu lượng truy cập lớn

Truy vấn

Trong các truy vấn, bạn cần chỉ định tên miền của trang web cần tìm, ví dụ:

a-parser.com
www.yahoo.com
google.com
vk.com
youtube.com

Các ví dụ xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc, ví dụ CSV hoặc JSON

Xuất mặc định

Định dạng kết quả:

$query: $first - $last ($times times)\n

Kết quả hiển thị trang web, ngày lập chỉ mục của bản sao đầu tiên và cuối cùng cùng số lượng bản sao trang web đã lưu:

vk.com: 11.05.2000 - 21.05.2014(8965 times)  
youtube.com: 28.04.2005 - 21.05.2014(28150 times)
a-parser.com: 16.03.2012 - 17.05.2014(56 times)
google.com: 11.11.1998 - 21.05.2014(34575 times)
www.yahoo.com: 17.10.1996 - 20.05.2014(28537 times)

Lưu dưới định dạng SQL

Định dạng kết quả:

[% "INSERT INTO archive VALUES('" _ query _ "', '" _ first _ "', '" _ last _ "', '" _ times _ "')\n" %]

Ví dụ kết quả:

INSERT INTO archive VALUES('http://a-parser.com/', '16.03.2012', '16.01.2021', '290')
INSERT INTO archive VALUES('http://yandex.ru/', '06.12.1998', '25.03.2021', '141421')
INSERT INTO archive VALUES('http://facebook.com/', '12.12.1998', '25.03.2021', '4877156')
INSERT INTO archive VALUES('http://vk.com/', '11.05.2000', '25.03.2021', '172132')
INSERT INTO archive VALUES('http://google.com/', '11.11.1998', '25.03.2021', '5969502')
INSERT INTO archive VALUES('http://youtube.com/', '28.04.2005', '25.03.2021', '2309673')

Xuất kết quả sang JSON

Định dạng kết quả chung:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.first = p1.first;
obj.last = p1.last;
obj.times = p1.times;

obj.json %]

Văn bản bắt đầu:

[

Văn bản kết thúc:

]

Ví dụ kết quả:

[
{"first":"12.12.1998","query":"http://facebook.com/","last":"25.03.2021","times":4877156},
{"first":"06.12.1998","query":"http://yandex.ru/","last":"25.03.2021","times":141421},
{"first":"16.03.2012","query":"http://a-parser.com/","last":"16.01.2021","times":290},
{"first":"28.04.2005","query":"http://youtube.com/","last":"25.03.2021","times":2309673},
{"first":"11.11.1998","query":"http://google.com/","last":"25.03.2021","times":5969502},
{"first":"11.05.2000","query":"http://vk.com/","last":"25.03.2021","times":172132}
]
mẹo

Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".

Các cài đặt có thể có