SE::Startpage - công cụ cào dữ liệu kết quả tìm kiếm startpage.com

Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu kết quả tìm kiếm Startpage. Nhờ có công cụ cào dữ liệu Startpage, bạn có thể thu thập các cơ sở dữ liệu liên kết lớn, sẵn sàng cho việc sử dụng tiếp theo. Bạn có thể sử dụng các truy vấn theo cùng định dạng mà bạn nhập vào thanh tìm kiếm của Startpage, bao gồm cả các toán tử tìm kiếm (site, inurl, v.v.).
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của Startpage để sử dụng sau này (preset), thiết lập lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn phụ từ tệp, lặp qua các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể.
Việc lưu kết quả có thể thực hiện theo bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp sẵn Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở các định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Các liên kết, anchor text và đoạn trích (snippet) từ kết quả tìm kiếm

Tính năng
- Hỗ trợ chọn quốc gia, ngôn ngữ tìm kiếm và ngôn ngữ trang
- Khả năng xuất cùng nhau hoặc riêng biệt các anchor text, liên kết, snippet
- Khả năng chỉ định số lượng kết quả xuất ra
- Chỉ định kích thước kết quả(10 hoặc 20 kết quả)
Trường hợp sử dụng
- Thu thập cơ sở dữ liệu liên kết, anchor text và snippet
- Lấy danh sách các trang web được đề cập thường xuyên nhất trong các công cụ tìm kiếm
- Bất kỳ trường hợp sử dụng nào khác để thu thập thông tin
Truy vấn
Các từ, cụm từ, tổ hợp từ được chỉ định làm truy vấn theo cùng định dạng như khi chúng được nhập vào công cụ tìm kiếm. Ví dụ:
test
site:http://test.ru
hoa hồng đỏ
Thay thế truy vấn
Bạn có thể sử dụng các macro tích hợp sẵn để nhân bản truy vấn, ví dụ: chúng ta muốn có một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:
forum
diễn đàn
foro
论坛
Trong định dạng truy vấn, chúng ta sẽ chỉ định việc lặp qua các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng tối đa kết quả tìm kiếm và nhận được nhiều kết quả mới duy nhất:
$query {az:a:zzzz}
Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng nhưng hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, tác vụ này sẽ được xử lý chỉ trong 16 giờ.
Sử dụng toán tử
Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, theo cách này nó sẽ tự động được thêm vào mỗi truy vấn từ danh sách của bạn:
site:$query
Các ví dụ về định dạng kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý cũng như dạng có cấu trúc như CSV hoặc JSON
Xuất danh sách liên kết
Tương tự như trong SE::Google.
Liên kết + anchor text + snippet kèm theo vị trí
Tương tự như trong SE::Google.
Xuất liên kết, anchor text và snippet vào bảng CSV
Tương tự như trong SE::Google.
Lưu ở định dạng SQL
Tương tự như trong SE::Google.
Kết xuất kết quả sang JSON
Tương tự như trong SE::Google.
Xử lý kết quả
A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu Startpage
Khử trùng lặp liên kết
Tương tự như trong SE::Google.
Khử trùng lặp liên kết theo tên miền
Tương tự như trong SE::Google.
Trích xuất tên miền
Tương tự như trong SE::Google.
Loại bỏ thẻ khỏi anchor text và snippet
Tương tự như trong SE::Google.
Lọc liên kết theo sự xuất hiện
Tương tự như trong SE::Google.
Các cài đặt có thể có
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Pages count | 5 | Số lượng trang để cào dữ liệu (từ 1 đến 50) |
| Family filter | Filter depending on search | Chọn mức độ lọc (Filter all results / Filter depending on search / Do not filter my results) |
| Period | Any time | Chọn khoảng thời gian của kết quả (Any time / Past 24 hours / Past week / Past month / Past year) |
| Links per page | 10 | Kích thước kết quả (10 / 20) |
| Results language | English | Chọn ngôn ngữ của kết quả |
| Page language | English | Chọn ngôn ngữ của trang |
| Search country | All | Chọn quốc gia thực hiện tìm kiếm |