Chuyển đến nội dung chính

SE::Google::Cache - Kiểm tra sự tồn tại của trang trong bộ nhớ đệm Google

Google Cache

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu Google Cache kiểm tra sự hiện diện của một trang trong bộ nhớ đệm của Google.

Việc lưu trữ kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

Dữ liệu thu thập được
  • Ngày lập chỉ mục của trang trong bộ nhớ đệm
  • Ngày lập chỉ mục của trang ở định dạng Unix
  • Sự hiện diện của trang trong bộ nhớ đệm
  • Dữ liệu trang không có google-toolbar

Ứng dụng

  • Xác định sự hiện diện của trang trong bộ nhớ đệm Google
  • Lấy ngày của bản chụp (snapshot) cuối cùng từ Google
  • Lấy ngày của bản chụp cuối cùng từ Google ở định dạng Unix
  • Lấy nội dung của trang đang nằm trong bộ nhớ đệm

Truy vấn

Trong các truy vấn, bạn cần chỉ định URL của trang, ví dụ:

https://a-parser.com
https://lenta.ru/

Các ví dụ về kết quả đầu ra

Kết quả mặc định

Định dạng kết quả:

$query: $exists - $date\n

Ví dụ kết quả hiển thị tên miền, sự hiện diện trong bộ nhớ đệm (1 hoặc 0), ngày lưu bộ nhớ đệm:

https://lenta.ru/: 1 -  25 Dec 2020 10:44:05 GMT

Xuất ra bảng CSV

Định dạng kết quả:

[% tools.CSVline(query, exists, date, timestamp) %]

Ví dụ kết quả:

https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944

Các cài đặt có thể thiết lập

Tham sốGiá trị mặc địnhMô tả
Use sessionsLưu các phiên làm việc tốt giúp cào dữ liệu nhanh hơn và nhận được ít lỗi hơn
Util::ReCaptcha2 presetdefaultXác định có sử dụng Util::ReCaptcha2Util::ReCaptcha2 để vượt reCAPTCHA hay không
Remove toolbarChỉ định có cần xóa thanh công cụ (toolbar) khỏi trang hay không