Chuyển đến nội dung chính

SE::Google::TrustCheck - Kiểm tra độ tin cậy (trust) của trang web

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu cho phép kiểm tra độ tin cậy (trust) của trang web trên Google. Có sẵn tất cả các tính năng của công cụ cào dữ liệu SE::GoogleSE::Google. Nhờ khả năng hoạt động đa luồng của A-Parser, tốc độ xử lý truy vấn có thể đạt tới 900 truy vấn mỗi phút, cho phép nhận trung bình lên tới 6200 kết quả mỗi phút.

Tổng quan về công cụ cào dữ liệu: tốc độ hoạt động

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu để sử dụng sau này (preset), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Kiểm tra Trust (độ tin cậy) của Google đối với trang web
  • Các kết quả có thể có - 0, 12:
    • 0 - không có các khối liên kết bổ sung
    • 1 hoặc 2 có nghĩa là Google tin tưởng trang web, vì nó hiển thị các khối liên kết bổ sung. 1 - có nghĩa là trang web có khối liên kết ngang, và 2 - có nghĩa là nó có khối liên kết dọc lớn

dữ liệu nào được thu thập bởi công cụ cào dữ liệu SE::Google::TrustCheck dữ liệu nào được thu thập bởi công cụ cào dữ liệu SE::Google::TrustCheck

Tính năng

  • Thu thập cơ sở dữ liệu các trang web uy tín (trust)
  • Hỗ trợ chọn quốc gia tìm kiếm, tên miền, ngôn ngữ kết quả và các cài đặt khác

Truy vấn

Trong phần truy vấn, bạn cần chỉ định URL của trang web cần tìm, ví dụ:

http://uraldekor.ru/  
http://a-parser.com/
http://www.yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp để tự động thay thế các truy vấn phụ từ tệp, ví dụ chúng ta muốn kiểm tra các trang web theo danh sách từ khóa, hãy chỉ định một số truy vấn chính:

ria.ru
lenta.ru
rbc.ru
yandex.ru

Trong định dạng truy vấn, chúng ta chỉ định macro thay thế các từ bổ sung từ tệp Keywords.txt, phương pháp này cho phép kiểm tra danh sách trang web theo danh sách từ khóa và nhận được vị trí kết quả:

$query {subs:Keywords}

Macro này sẽ tạo ra số lượng truy vấn bổ sung tương ứng với số lượng dòng trong tệp cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ là [số lượng truy vấn gốc (tên miền)] x [số lượng truy vấn trong tệp Keywords] = [tổng số lượng truy vấn] sau khi macro hoạt động.

Bạn cũng có thể chỉ định giao thức trong định dạng truy vấn để có thể sử dụng chỉ tên miền làm truy vấn:

http://$query 

Định dạng này sẽ thêm http:// vào trước mỗi truy vấn.

Các phương án xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc như CSV hoặc JSON

Xuất danh sách kiểm tra trust

Định dạng kết quả:

$query: $trustrank\n

Kết quả hiển thị danh sách các liên kết và kiểm tra Trust của chúng.

Ví dụ kết quả:

http://www.yandex.ru/: 2
http://a-parser.com/: 1
http://vk.com/: 2
http://uraldekor.ru/: 0
http://google.com/: 2
...

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Cạnh tranh từ khóa

Tương tự như trong SE::Google.

Kiểm tra lập chỉ mục liên kết

Tương tự như trong SE::Google.

Lưu dưới định dạng SQL

Tương tự như trong SE::Google.

Dump kết quả sang JSON

Tương tự như trong SE::Google.

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu SE::Google::TrustCheck

Lưu các tên miền có giá trị trust là "1"

Thêm bộ lọc và trong danh sách thả xuống chọn biến trust $trustrank - Trust rank. Chọn loại: String equal. Tiếp theo, trong ô String, nhập giá trị trust mà chúng ta cần là 1. Với bộ lọc này, bạn có thể loại bỏ tất cả các kết quả có mức trust không mong muốn.

Ví dụ về lọc
Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJx1VEtz2jAQ/iuMJod2hjhw6MU3woROOzSkCTkBB4HXRLWsNXrwGA//vSvZ2CYt
J3tf37f7raSSWW4y86LBgDUsXpSsCP8sZm9PcfwdcSshjufaGTv+gE3Wu+8FQ3OV
9VIhLWjWZwXXBrQHWNyoo6QEUu6kZf2S2VMBRIF70FokQEGRkJ2izrmlBkIa23Pp
fNrdzoE+xb07e2FeLhU738YpNB5PGqwWYDo4w8Fg0C1r2q8ZY9YQkLOKzqtU2Dku
u1D0j4UVqMgwoAw7r1YXIDMJc/jOi2FUC9oE3/ge5ljRQ+uekPXM8zBvwi34aFQJ
8uVrZI8egSeJ8JxcVgxe8Jb1XYldaE4h5XrNaPyJxtwPBgEgCHnpbsE+rC3ih4dK
X0ZILkD8rkpZnHJpoM8MdTzh1E/yOSJIIW5Rz4IU5C8ZqpGUU9iDbNMC/qMTMqFD
Mkqp6Edd+P+U2T8Y52bKLhWt/aCphwYlWI+zX21VglPckgDJmsaXIheWbDNGp/x+
BuTMAIpGumcvXY4aGpoauWanm1KA8mes3dyoaF1XY1xt59q5QZWK7aw+t5dMp+Z0
HWdqjHkhwc+lnJS0FgOv7SkZmXoN3mgb/Fw8DhR+9Mu9YxZRmp9vVauFFnQKv/kG
c1Kyy1pDbriU76/TboS1J4sMpznNlKGOtFsqfl89A9EG86U6HA7RiasEjiG4DS9C
Fdpn1TflG1gj1tYJnXXrkMI8t4Ut0qkkZc6r5oVpXqry1jsTl2da+x/zUhV4jXw6
+UhsEy7s8PwXfU7A2Q==
mẹo

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Trích xuất tên miền

Tương tự như trong SE::Google.

Loại bỏ thẻ khỏi anchor và snippet

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Các cài đặt có thể có

Hỗ trợ tất cả các cài đặt của công cụ cào dữ liệu SE::GoogleSE::Google, cũng như bổ sung thêm:

Tên tham sốGiá trị mặc địnhMô tả
Pages count1Số lượng trang kết quả tìm kiếm cần cào (từ 1 đến 10)