Chuyển đến nội dung chính

SE::AOL::Suggest - Công cụ cào dữ liệu gợi ý tìm kiếm AOL

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu gợi ý tìm kiếm theo từ khóa trong AOL. Nhờ công cụ cào dữ liệu SE::AOL::Suggest, bạn có thể tự động thu thập cơ sở dữ liệu từ khóa từ các gợi ý của công cụ tìm kiếm AOL theo truy vấn. Sử dụng công cụ cào dữ liệu SE::AOL::Suggest giúp việc cào dữ liệu gợi ý AOL theo truy vấn trở nên dễ dàng và nhanh chóng.

Nhờ khả năng làm việc đa luồng của A-Parser, tốc độ xử lý truy vấn có thể đạt tới 4700 truy vấn mỗi phút, cho phép nhận trung bình từ 13500-14500 kết quả mỗi phút.

Tổng quan về công cụ cào dữ liệu: tốc độ hoạt động

Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn con từ tệp, lặp qua các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể. Sử dụng lọc kết quả, bạn có thể làm sạch kết quả ngay lập tức bằng cách loại bỏ tất cả rác không cần thiết (sử dụng từ khóa loại trừ).

Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ SE::AOL::Suggest để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác.

Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.

Dữ liệu thu thập được

  • Số lượng kết quả theo truy vấn
  • Các gợi ý cho truy vấn

dữ liệu nào được thu thập bởi công cụ cào dữ liệu SE::AOL::Suggest

Tính năng

  • Hỗ trợ tất cả các toán tử tìm kiếm của AOL (site:, v.v.)
  • Cào số lượng kết quả tối đa mà AOL cung cấp - 100 trang với 20 phần tử mỗi trang kết quả

Các trường hợp sử dụng

  • Thu thập cơ sở dữ liệu từ khóa

Truy vấn

Trong phần truy vấn, bạn cần chỉ định các cụm từ tìm kiếm, ví dụ:

write essay
Football
Speak in english
forex
cheap essay

Thay thế truy vấn

Bạn có thể sử dụng các macro tích hợp để tự động thay thế các truy vấn con từ tệp, ví dụ: chúng ta muốn thêm một danh sách các từ khác vào mỗi truy vấn, hãy chỉ định một vài truy vấn chính:

essay
article
thesis

Trong định dạng truy vấn, chúng ta chỉ định macro thay thế các từ bổ sung từ tệp Keywords.txt, phương pháp này cho phép tăng khả năng biến đổi của các truy vấn lên nhiều lần:

{subs:Keywords} $query 

Macro này sẽ tạo ra số lượng truy vấn bổ sung tương ứng với số lượng từ trong tệp cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ là [số lượng truy vấn gốc (tên miền)] x [số lượng truy vấn trong tệp Keywords] = [tổng số lượng truy vấn] sau khi macro hoạt động.

Ví dụ, nếu tệp Keywords.txt chứa:

buy
cheap

Kết quả là macro thay thế sẽ chuyển 3 truy vấn chính thành 6:

buy essay
cheap essay
buy article
cheap article
buy thesis
cheap thesis

Các ví dụ xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc, ví dụ như CSV hoặc JSON

Xuất danh sách gợi ý

Tương tự như trong SE::Google::Suggest.

Xuất ra bảng CSV

Tương tự như trong SE::Google::Suggest.

Lưu dưới định dạng SQL

Định dạng kết quả:

[% FOREACH results;
"INSERT INTO serp VALUES('" _ query _ "', '"; suggest _ "')\n";
END %]

Ví dụ kết quả:

INSERT INTO serp VALUES('write essay', 'write essay for me')
INSERT INTO serp VALUES('write essay', 'write essay')
INSERT INTO serp VALUES('write essay', 'write essay online')
INSERT INTO serp VALUES('write essay', 'write essay for you')
INSERT INTO serp VALUES('write essay', 'write essay free')
INSERT INTO serp VALUES('write essay', 'write essay conclusion')
INSERT INTO serp VALUES('write essay', 'write essay today')
INSERT INTO serp VALUES('write essay', 'write essays for money')
...

Kết xuất kết quả sang JSON

Tương tự như trong SE::Google::Suggest.

Xử lý kết quả

A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ SE::AOL::Suggest

Tùy chọn Cào đến cấp độ (Parse to level)

Tương tự như trong SE::Google::Suggest.

Lọc kết quả (sử dụng từ khóa loại trừ)

Tương tự như trong SE::Google::Suggest.

Các cài đặt có thể có