SE::Yandex::SQI - Kiểm tra Chỉ số chất lượng trang web (SQI) trên Yandex
Tổng quan về công cụ cào dữ liệu

SE::Yandex::SQI – kiểm tra chỉ số chất lượng trang web (SQI) trên Yandex. Công cụ cào dữ liệu cực nhanh, tốc độ làm việc từ 3000-7000 truy vấn mỗi phút.Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn con từ tệp, lặp qua các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể. Bằng cách sử dụng lọc kết quả, bạn có thể làm sạch kết quả ngay lập tức, loại bỏ tất cả rác không cần thiết (sử dụng từ khóa loại trừ).
Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ SE::Yandex::SQI để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Chỉ số chất lượng trang web (Yandex SQI)
- Dữ liệu về sự hiện diện của các biểu tượng trên trang web (1 - có biểu tượng, 0 - không có biểu tượng):
- Người dùng lựa chọn
- Trang web phổ biến
- Kết nối an toàn
- Trang Turbo
- Trang web có phải là chính thức hay không
- Đối với các biểu tượng "Người dùng lựa chọn" và "Trang web phổ biến", bạn có thể nhận được mức độ sẵn sàng để nhận biểu tượng dưới dạng giá trị trung gian từ 0 đến 1, ví dụ 0.4.
- Số lượng đánh giá, điểm số và xếp hạng
- Xếp hạng cửa hàng trong tìm kiếm sản phẩm và xếp hạng cửa hàng trên Yandex Market (nếu dữ liệu này có sẵn cho trang web được tìm kiếm)
Biến thể sử dụng
- Đánh giá mức độ hữu ích của trang web dưới góc nhìn của Yandex
- Thu thập tiêu đề (title)
Truy vấn
Trong các truy vấn, bạn cần chỉ định tên miền của trang web cần tìm. Có thể chỉ định có hoặc không có giao thức, ví dụ:
yandex.ru
google.com
vk.com
facebook.com
https://a-parser.com
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý cũng như dạng cấu trúc như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$query: $sqi\n
Ví dụ kết quả hiển thị truy vấn ban đầu và chỉ số SQI của nó:
facebook.com: 130000
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000
Nếu SQI cho tên miền không khả dụng, kết quả sẽ là -1.
Xuất ra bảng CSV
Định dạng kết quả:
[% tools.CSVline(query, sqi, rating); %]
Tên tệp:
$datefile.format().csv
Văn bản bắt đầu:
Tên miền,Xếp hạng,Tác giả,Giá
Để tùy chọn "Prepend text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options". Trong "Prepend text", chúng ta ghi tên các cột cách nhau bằng dấu phẩy và để dòng thứ hai trống.
Lưu dưới định dạng SQL
Định dạng kết quả:
[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]
Ví dụ kết quả:
INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')
Xuất kết quả sang JSON
Định dạng kết quả chung:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;
obj.json %]
Văn bản bắt đầu:
[
Văn bản kết thúc:
]
Ví dụ kết quả:
[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
Để các tùy chọn "Prepend text" và "Append text" hiển thị trong Trình chỉnh sửa tác vụ, bạn cần kích hoạt "More options".
Các thiết lập có thể có
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| AntiGate preset | default | Chọn mẫu thiết lập sẵn Util::AntiGate, chi tiết về cài đặt tại đây |
| AntiGate preset for old captcha | default | Tương tự như AntiGate preset, nhưng chỉ được sử dụng cho các loại captcha thông thường (cũ, dưới dạng một hình ảnh). Nếu không chọn preset ở đây, preset được chọn trong AntiGate preset sẽ được sử dụng cho các loại captcha này. |
| Experimental img captcha max count | 5 | Số lượng tối đa các hình ảnh captcha lặp lại cho mỗi lần thử |
| Preffered captcha type | Click | Chọn loại captcha ưu tiên: Click hoặc Puzzle |
| Use sessions | ☑ | Lưu các phiên làm việc tốt giúp cào dữ liệu nhanh hơn và nhận được ít lỗi hơn |
