Chuyển đến nội dung chính

SE::Rambler - công cụ cào dữ liệu kết quả tìm kiếm Rambler

img

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu kết quả tìm kiếm Rambler. Nhờ công cụ cào dữ liệu Rambler, bạn có thể thu thập các cơ sở dữ liệu liên kết lớn sẵn sàng để sử dụng tiếp. Bạn có thể sử dụng các truy vấn giống hệt như khi nhập vào thanh tìm kiếm của Rambler, bao gồm cả các toán tử tìm kiếm (site, ip, v.v.).

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của Rambler để sử dụng sau này (mẫu thiết lập sẵn), lên lịch cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn phụ từ tệp, quét các tổ hợp chữ cái-số và danh sách để nhận được số lượng kết quả tối đa có thể.

Việc lưu kết quả có thể thực hiện theo bất kỳ định dạng và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Số lượng kết quả trong trang kết quả tìm kiếm
  • Các liên kết, văn bản neo (anchor) và đoạn trích (snippet) từ kết quả tìm kiếm
  • Danh sách các từ khóa liên quan (hints)

dữ liệu nào được thu thập bởi công cụ cào dữ liệu SE::Rambler

Tính năng

  • Hỗ trợ toán tử tìm kiếm của Rambler (url:, site:, inurl:, host:, rhost:, domain:.)
  • Cào tối đa 25 trang, từ 10 đến 50 kết quả mỗi trang
  • Cào từ khóa liên quan ($hints)
  • Khả năng sử dụng các dịch vụ giải mã để vượt qua captcha
  • Lựa chọn thiết bị hiển thị: máy tính để bàn thông thường, di động Android hoặc di động iOS

Ứng dụng

  • Thu thập cơ sở dữ liệu liên kết
  • Đánh giá cạnh tranh cho từ khóa
  • Tìm kiếm backlink (lượt nhắc đến) của trang web
  • Tất cả các trường hợp cần cào dữ liệu kết quả tìm kiếm của Rambler

Truy vấn

Nhập các truy vấn giống như trong tìm kiếm của Rambler. Giả sử, chỉ cần các liên kết từ một trang web. Nhập vào trường truy vấn:

"mua cửa" site:http://kp.ru

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp để nhân bản truy vấn, ví dụ chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:

forum
diễn đàn
foro
论坛

Trong định dạng truy vấn, chúng ta chỉ định quét các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng tối đa kết quả tìm kiếm và nhận được nhiều kết quả độc nhất mới:

$query {az:a:zzzz}

Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng nhưng hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, tác vụ này sẽ được xử lý chỉ trong 16 giờ.

Sử dụng toán tử

Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, theo cách này nó sẽ được tự động thêm vào mỗi truy vấn từ danh sách của bạn:

site:$query

Các tùy chọn xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý, cũng như dạng có cấu trúc như CSV hoặc JSON

Xuất danh sách liên kết

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Định dạng kết quả:

$hints.format('$hint\n')

Ví dụ kết quả:

habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
kế toán điện tử
đảo elba
elba kế toán điện tử
habrahabr
...

Lưu ở định dạng SQL

Tương tự như trong SE::Google.

Xuất kết quả sang JSON

Tương tự như trong SE::Google.

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Rambler

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Trích xuất tên miền

Tương tự như trong SE::Google.

Loại bỏ thẻ khỏi văn bản neo và đoạn trích

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Các cài đặt có thể

Tên tham sốGiá trị mặc địnhMô tả
DeviceDesktopLựa chọn thiết bị hiển thị: máy tính để bàn thông thường, di động Android hoặc di động iOS
Pages count5Số lượng trang để cào dữ liệu (từ 1 đến 25)
Links per page10Số lượng kết quả trên mỗi trang (10/15/30/50)
Rambler region IDKhả năng thiết lập khu vực. Cần chỉ định ID khu vực. Cách tìm ID khu vực cần thiết được mô tả tại đây
SortSites by relevanceLựa chọn phương án sắp xếp kết quả
Results filteringModerateLựa chọn phương án lọc kết quả
Results languageAny languageLựa chọn ngôn ngữ tìm kiếm kết quả
Serp timeAnytimeLựa chọn khoảng thời gian của kết quả
Results typeAny formatLựa chọn loại kết quả (mime type)
Exact matchKhớp chính xác với truy vấn
Disable autocorrectTắt tính năng tự động sửa lỗi, cho phép cào dữ liệu chính xác theo truy vấn đã chỉ định
Use sessionsLưu các phiên làm việc tốt, giúp cào dữ liệu nhanh hơn và nhận được ít lỗi hơn
AntiGate presetdefaultXác định xem có sử dụng Util::AntiGateUtil::AntiGate để vượt qua captcha hay không