SE::DuckDuckGo - Công cụ cào dữ liệu kết quả tìm kiếm DuckDuckGo

Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu kết quả tìm kiếm DuckDuckGo. Nhờ công cụ cào dữ liệu DuckDuckGo, bạn có thể thu thập các cơ sở dữ liệu liên kết lớn sẵn sàng để sử dụng tiếp. Bạn có thể sử dụng các truy vấn giống như khi nhập vào thanh tìm kiếm DuckDuckGo, bao gồm cả các toán tử tìm kiếm (intitle, inurl, site, v.v.). Chi tiết hơn tại trang chính thức DuckDuckGo Search Syntax.
Tính năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của DuckDuckGo để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác. Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế truy vấn con từ tệp, lặp qua các tổ hợp chữ cái-số và danh sách để nhận được số lượng kết quả tối đa có thể.
Việc lưu kết quả có thể thực hiện theo định dạng và cấu trúc mà bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ tích hợp Template Toolkit cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở nhiều định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Liên kết, anchor text và đoạn trích (snippet) từ kết quả tìm kiếm

Tính năng
- Hỗ trợ tất cả các toán tử tìm kiếm DuckDuckGo (intitle:, inurl:, site:, v.v.). Chi tiết về các toán tử tìm kiếm trên trang chính thức DuckDuckGo Search Syntax
- Cào số lượng kết quả tối đa mà Bing cung cấp - 10 trang, mỗi trang 10 phần tử trong kết quả
- Tổng số lượng kết quả - 100
- Khả năng cào dữ liệu theo vị trí đã chọn (tùy chọn Location)
- Khả năng chọn ngôn ngữ kết quả (tùy chọn Language)
Ứng dụng
- Thu thập cơ sở dữ liệu liên kết - cho A-Poster, XRumer, AllSubmitter, v.v.
- Kiểm tra lập chỉ mục của các trang web
- Tìm kiếm backlink (lượt nhắc đến) của trang web
- Bất kỳ phương án nào khác liên quan đến việc cào dữ liệu DuckDuckGo dưới hình thức này hay hình thức khác
Truy vấn
Trong phần truy vấn, bạn cần chỉ định các cụm từ tìm kiếm, ví dụ:
Football
thử nghiệm
site:a-parser.com
công cụ cào dữ liệu site:a-parser.com
test -site:tests.com
IoT filetype:pdf
Thay thế truy vấn
Bạn có thể sử dụng mẫu macro tích hợp để nhân bản truy vấn, ví dụ chúng ta muốn lấy một cơ sở dữ liệu diễn đàn rất lớn, hãy chỉ định một vài truy vấn chính bằng các ngôn ngữ khác nhau:
forum
diễn đàn
foro
论坛
Trong định dạng truy vấn, chúng ta chỉ định lặp qua các ký tự từ a đến zzzz, phương pháp này cho phép xoay vòng kết quả tìm kiếm tối đa và nhận được nhiều kết quả độc nhất mới:
$query {az:a:zzzz}
Macro này sẽ tạo ra 475254 truy vấn bổ sung cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho ra 4 x 475254 = 1901016 truy vấn tìm kiếm, một con số ấn tượng, nhưng điều này hoàn toàn không phải là vấn đề đối với A-Parser. Với tốc độ 2000 truy vấn mỗi phút, tác vụ này sẽ được xử lý chỉ trong khoảng 16 giờ.
Sử dụng toán tử
Bạn có thể sử dụng các toán tử tìm kiếm trong định dạng truy vấn, theo cách này nó sẽ tự động được thêm vào mỗi truy vấn từ danh sách của bạn:
site:$query
Các tùy chọn xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý, cũng như dạng cấu trúc như CSV hoặc JSON
Xuất danh sách liên kết
Tương tự như trong SE::Google.
Liên kết + anchor text + snippet kèm theo vị trí
Tương tự như trong SE::Google.
Xuất liên kết, anchor text và snippet vào bảng CSV
Tương tự như trong SE::Google.
Lưu các từ khóa liên quan
Tương tự như trong SE::Google.
Kiểm tra lập chỉ mục liên kết
Tương tự như trong SE::Google.
Lưu dưới định dạng SQL
Tương tự như trong SE::Google.
Dump kết quả sang JSON
Tương tự như trong SE::Google.
Xử lý kết quả
A-Parser cho phép xử lý kết quả trực tiếp trong quá trình cào dữ liệu, trong phần này chúng tôi đưa ra các trường hợp phổ biến nhất cho công cụ cào dữ liệu DuckDuckGo
Khử trùng lặp liên kết
Tương tự như trong SE::Google.
Khử trùng lặp liên kết theo tên miền
Tương tự như trong SE::Google.
Trích xuất tên miền
Tương tự như trong SE::Google.
Loại bỏ thẻ khỏi anchor text và snippet
Tương tự như trong SE::Google.
Lọc liên kết theo sự xuất hiện
Tương tự như trong SE::Google.
Các cài đặt có thể
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Pages count | 5 | Số lượng trang để cào dữ liệu (từ 1 đến 10) |
| Region | US (English) | Chọn vị trí |
| Language | English (United States) | Chọn ngôn ngữ |
| Safe search | Moderate | Khả năng bật "Safe search" |
| Serp time | Any time | Thời gian tìm kiếm |
| Use HTTP/2 | ☐ | Xác định xem có sử dụng HTTP/2 thay vì HTTP/1.1 hay không |
| User agent | Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0 | Tiêu đề User-Agent khi yêu cầu trang |