Chuyển đến nội dung chính

SE::AOL - Công cụ cào dữ liệu kết quả tìm kiếm search.aol.com

AOL

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu AOL là một công cụ cào dữ liệu kết quả tìm kiếm AOL. Nhờ công cụ cào dữ liệu AOL, bạn có thể nhận được cơ sở dữ liệu liên kết khổng lồ, sẵn sàng để sử dụng tiếp. Bạn có thể sử dụng các truy vấn theo cùng định dạng mà bạn nhập vào thanh tìm kiếm của AOL, bao gồm các toán tử tìm kiếm (contains, intitle, language, site, v.v.). Chi tiết hơn trên trang chính thức AOL Search FAQs.

Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ cào dữ liệu AOL để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn phụ từ tệp, quét các tổ hợp chữ cái-số và danh sách để nhận được số lượng kết quả tối đa có thể.

Việc lưu kết quả có thể thực hiện theo hình thức và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Số lượng kết quả theo truy vấn
  • Liên kết, văn bản neo (anchor) và đoạn trích (snippet) từ kết quả tìm kiếm
Dữ liệu thu thập được

Tính năng

Công cụ cào dữ liệu hệ thống tìm kiếm AOL sở hữu các tính năng và cài đặt sau:

  • Hỗ trợ tất cả các toán tử tìm kiếm AOL (site:, prefer:, url:, feed:, v.v.). Chi tiết hơn trên trang chính thức AOL Search FAQs
  • Cào số lượng kết quả tối đa mà AOL cung cấp - 100 trang với 20 phần tử trong kết quả của mỗi trang
  • Hỗ trợ khoảng thời gian kết quả (Anytime, Day, Week, Month)

Các trường hợp sử dụng

  • Thu thập cơ sở dữ liệu liên kết - cho A-Poster, XRumer, AllSubmitter, v.v.
  • Đánh giá mức độ cạnh tranh cho từ khóa
  • Cào dữ liệu kết quả tìm kiếm Google tại Mỹ
  • Tìm kiếm backlink (lượt nhắc đến) của trang web
  • Kiểm tra chỉ mục (indexing) của trang web
  • Tìm kiếm các trang web có lỗ hổng bảo mật
  • Bất kỳ phương án nào khác liên quan đến việc cào dữ liệu AOL dưới hình thức này hay hình thức khác

Truy vấn

Đối với các truy vấn, cần chỉ định các cụm từ tìm kiếm giống hệt như khi chúng được nhập trực tiếp vào biểu mẫu tìm kiếm của AOL, ví dụ:

kiểm tra
buy house
site:www.realtor.com
feed:football
a-parser loc:ca

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:

forum
diễn đàn
foro
论坛

Trong định dạng truy vấn, chúng ta chỉ định việc quét các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng kết quả tìm kiếm tối đa và nhận được nhiều kết quả độc nhất mới:

$query {az:a:zzzz}

Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng, nhưng điều này hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, một tác vụ như vậy sẽ được xử lý chỉ trong 16 giờ.

Sử dụng toán tử

Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, theo cách này nó sẽ tự động được thêm vào mỗi truy vấn từ danh sách của bạn:

site:$query

Các tùy chọn xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép nó xuất kết quả dưới dạng tùy ý, cũng như dưới dạng có cấu trúc như CSV hoặc JSON

Xuất danh sách liên kết

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Cạnh tranh từ khóa

Tương tự như trong SE::Google.

Kiểm tra chỉ mục liên kết

Tương tự như trong SE::Google.

Lưu dưới định dạng SQL

Tương tự như trong SE::Google.

Dump kết quả sang JSON

Tương tự như trong SE::Google.

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu AOL

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Trích xuất tên miền

Tương tự như trong SE::Google.

Loại bỏ thẻ khỏi văn bản neo và đoạn trích

Tương tự như trong SE::Google.

Tương tự như trong SE::Google.

Các cài đặt có thể có

Tên tham sốGiá trị mặc địnhMô tả
Pages count5Số lượng trang để cào dữ liệu (từ 1 đến 100)
PeriodAnytimeKhoảng thời gian kết quả (Anytime, Day, Week, Month)
AOL domainsearch.aol.comLựa chọn quốc gia của kết quả tìm kiếm (search.aol.com, search.aol.co.uk, recherche.aol.fr, suche.aol.de)