SE::Google::Cache - Kiểm tra sự tồn tại của trang trong bộ nhớ đệm Google

Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu Google Cache kiểm tra sự hiện diện của một trang trong bộ nhớ đệm của Google.
Việc lưu trữ kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được

- Ngày lập chỉ mục của trang trong bộ nhớ đệm
- Ngày lập chỉ mục của trang ở định dạng Unix
- Sự hiện diện của trang trong bộ nhớ đệm
- Dữ liệu trang không có google-toolbar
Ứng dụng
- Xác định sự hiện diện của trang trong bộ nhớ đệm Google
- Lấy ngày của bản chụp (snapshot) cuối cùng từ Google
- Lấy ngày của bản chụp cuối cùng từ Google ở định dạng Unix
- Lấy nội dung của trang đang nằm trong bộ nhớ đệm
Truy vấn
Trong các truy vấn, bạn cần chỉ định URL của trang, ví dụ:
https://a-parser.com
https://lenta.ru/
Các ví dụ về kết quả đầu ra
Kết quả mặc định
Định dạng kết quả:
$query: $exists - $date\n
Ví dụ kết quả hiển thị tên miền, sự hiện diện trong bộ nhớ đệm (1 hoặc 0), ngày lưu bộ nhớ đệm:
https://lenta.ru/: 1 - 25 Dec 2020 10:44:05 GMT
Xuất ra bảng CSV
Định dạng kết quả:
[% tools.CSVline(query, exists, date, timestamp) %]
Ví dụ kết quả:
https://a-parser.com/wiki/index/,1," 18 Mar 2021 20:05:44 GMT",1616097944
Các cài đặt có thể thiết lập
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Use sessions | ☑ | Lưu các phiên làm việc tốt giúp cào dữ liệu nhanh hơn và nhận được ít lỗi hơn |
| Util::ReCaptcha2 preset | default | Xác định có sử dụng Util::ReCaptcha2 để vượt reCAPTCHA hay không |
| Remove toolbar | ☑ | Chỉ định có cần xóa thanh công cụ (toolbar) khỏi trang hay không |
