Chuyển đến nội dung chính

SE::Bing - Công cụ cào dữ liệu kết quả tìm kiếm Bing

Bing

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu kết quả tìm kiếm Bing. Nhờ công cụ cào dữ liệu SE::Bing, bạn có thể thu thập được cơ sở dữ liệu liên kết khổng lồ sẵn sàng cho việc sử dụng tiếp theo. Bạn có thể sử dụng các truy vấn giống hệt như khi nhập vào thanh tìm kiếm của Bing, bao gồm cả các toán tử tìm kiếm (contains, intitle, language, site, v.v.). Chi tiết hơn tại trang chính thức Advanced search keywords.

Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của Bing để sử dụng sau này (mẫu thiết lập), đặt lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn con từ tệp, lặp qua các tổ hợp chữ cái - số và danh sách để nhận được số lượng kết quả tối đa có thể.

Việc lưu kết quả có thể thực hiện theo hình thức và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Các trường hợp ứng dụng công cụ cào dữ liệu

Dữ liệu thu thập được

  • Số lượng kết quả theo truy vấn
  • Liên kết, anchor text và snippet từ kết quả tìm kiếm
  • Danh sách các từ khóa liên quan (Related keywords)
  • Liên kết, liên kết hiển thị, anchor text, snippet và vị trí quảng cáo từ kết quả quảng cáo
Dữ liệu thu thập được

Tính năng

  • Hỗ trợ tất cả các toán tử tìm kiếm của Bing (site:, ip:, v.v.). Chi tiết về các toán tử tìm kiếm trên trang chính thức Advanced search keywords.
  • Cào số lượng kết quả tối đa mà Bing cung cấp - lên đến 200 trang kết quả
  • Có thể tự động cào nhiều hơn 1000 kết quả cho mỗi truy vấn - bằng cách thêm các ký tự bổ sung (tùy chọn Parse all results)
  • Khả năng cào theo chiều sâu dựa trên các từ khóa liên quan (Parse related to level)
  • Khả năng tìm kiếm các từ khóa liên quan
  • Khả năng cào liên kết đến các trang đã lưu trong bộ nhớ cache
  • Khả năng cào kết quả tìm kiếm trên di động
  • Hỗ trợ tải dữ liệu khi cuộn trang trong giao diện di động

Dựa trên công cụ cào dữ liệu Bing, các công cụ cào dữ liệu sau đây hoạt động:

  • SE::Bing::PositionSE::Bing::Position - xác định vị trí của bất kỳ trang web nào trong kết quả tìm kiếm theo danh sách truy vấn

Các phương án sử dụng

  • Thu thập cơ sở dữ liệu liên kết - cho A-Poster, XRumer, AllSubmitter, v.v.
  • Đánh giá mức độ cạnh tranh của từ khóa
  • Tìm kiếm backlink (lượt nhắc đến) của trang web
  • Kiểm tra việc lập chỉ mục của trang web
  • Tìm kiếm các trang web có lỗ hổng bảo mật
  • Tìm kiếm các trang web trên cùng một địa chỉ IP
  • Bất kỳ phương án nào khác liên quan đến việc cào dữ liệu Bing dưới hình thức này hay hình thức khác

Truy vấn

Trong phần truy vấn, bạn cần chỉ định các cụm từ tìm kiếm, giống hệt như khi nhập trực tiếp vào khung tìm kiếm của Bing, ví dụ:

test
cửa sổ Hà Nội
site:http://lenta.ru
ip:222.36.12.12

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp để nhân bản truy vấn, ví dụ chúng ta muốn lấy một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:

forum
diễn đàn
foro
论坛

Trong định dạng truy vấn, chúng ta chỉ định lặp qua các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng tối đa kết quả tìm kiếm và nhận được nhiều kết quả độc nhất mới:

$query {az:a:zzzz}

Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng, nhưng điều này hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, nhiệm vụ này sẽ được xử lý chỉ trong vòng 16 giờ.

Sử dụng toán tử

Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, theo cách này nó sẽ được tự động thêm vào mỗi truy vấn từ danh sách của bạn:

site:$query

Các phương án xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý, cũng như dạng có cấu trúc như CSV hoặc JSON.

Xuất danh sách liên kết

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Mức độ cạnh tranh của từ khóa

Tương tự như trong SE::Google.

Kiểm tra việc lập chỉ mục liên kết

Tương tự như trong SE::Google.

Lưu dưới định dạng SQL

Tương tự như trong SE::Google.

Dump kết quả sang JSON

Tương tự như trong SE::Google.

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Bing

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Trích xuất tên miền

Tương tự như trong SE::Google.

Loại bỏ thẻ khỏi anchor text và snippet

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Các cài đặt có thể

Tên tham sốGiá trị mặc địnhMô tả
Pages count10Số lượng trang để cào dữ liệu (từ 1 đến 200)
RegionBased on IPChọn khu vực. Danh sách khu vực.
Interface languageAnyChọn ngôn ngữ giao diện. Danh sách ngôn ngữ.
Safe SearchModerateChọn tùy chọn tìm kiếm an toàn (Strict / Moderate / Off)
DeviceDesktopChọn thiết bị tìm kiếm (Desktop / Mobile)
Show inaccessible resultsCho phép hiển thị các kết quả bị ẩn
Stop pagination by results count0Dừng quá trình phân trang khi đạt đến số lượng kết quả quy định. Hoạt động bổ sung cho Pages count, việc cào dữ liệu sẽ dừng lại tùy thuộc vào điều kiện nào đạt được trước: số lượng trang quy định hoặc số lượng kết quả quy định.
Handle captcha max pages10Số lượng trang tối đa mở đồng thời để tạo cookies cần thiết cho việc vượt qua captcha thành công. Giới hạn tính song song ở giai đoạn vượt qua captcha.