SE::Yandex::Balaboba - công cụ cào dữ liệu văn bản từ Balaboba

Tổng quan về công cụ cào dữ liệu
SE::Yandex::Balaboba - công cụ cào dữ liệu văn bản từ Balaboba.Lấy văn bản từ dịch vụ cùng tên.
Bạn có thể sử dụng tính năng tự động nhân bản truy vấn, thay thế các truy vấn phụ từ tệp, lặp qua các tổ hợp chữ-số và danh sách để nhận được số lượng kết quả tối đa có thể.
Chức năng của A-Parser cho phép lưu các cài đặt cào dữ liệu của công cụ SE::Yandex::Balaboba để sử dụng sau này (mẫu thiết lập sẵn), đặt lịch trình cào dữ liệu và nhiều tính năng khác.
Việc lưu kết quả có thể thực hiện dưới bất kỳ hình thức và cấu trúc nào bạn cần, nhờ vào bộ tạo mẫu mạnh mẽ được tích hợp sẵn Template Toolkit, cho phép áp dụng logic bổ sung cho kết quả và xuất dữ liệu ở các định dạng khác nhau, bao gồm JSON, SQL và CSV.
Dữ liệu thu thập được
- Văn bản được tạo
- Phong cách mà văn bản được tạo theo
- Liên kết đến hình ảnh
Tính năng
- Cào dữ liệu văn bản độc nhất với khả năng chọn phong cách văn bản (tham số Style):
Công thức (RU),Câu chuyện ngắn (RU),Recipies (EN)và các phong cách khác - Chọn số thứ tự phong cách có thể xem trong trình duyệt và cào dữ liệu với phong cách văn bản mong muốn nếu phong cách đó không có trong tùy chọn chọn phong cách (tham số ID of custom style)
Ứng dụng
- Thu thập hàng loạt văn bản độc nhất
Truy vấn
Trong phần truy vấn, bạn cần chỉ định các cụm từ mà quá trình tạo sẽ bắt đầu, ví dụ:
Ngày xửa ngày xưa
Thay thế truy vấn
Bạn có thể sử dụng các macro tích hợp sẵn để tự động thay thế các truy vấn phụ từ tệp, ví dụ: chúng ta muốn thêm một danh sách các từ khác vào mỗi truy vấn, hãy chỉ định một vài truy vấn chính:
Ngày xửa ngày xưa
Fantasy
Tower defense
Trong định dạng truy vấn, hãy chỉ định macro thay thế các từ bổ sung từ tệp keywords.txt, phương pháp này cho phép tăng khả năng biến đổi của các truy vấn lên nhiều lần:
{subs:keywords} $query
Macro này sẽ tạo ra số lượng truy vấn bổ sung tương ứng với số lượng từ có trong tệp cho mỗi truy vấn tìm kiếm gốc, tổng cộng sẽ cho kết quả là [số lượng truy vấn gốc] x [số lượng truy vấn trong tệp Keywords] = [tổng số lượng truy vấn] sau khi macro hoạt động.
Ví dụ, nếu tệp keywords.txt chứa:
free
online
Kết quả là macro thay thế sẽ biến 3 truy vấn chính thành 6:
free fantasy
online fantasy
free tower defense
online tower defense
free rpg
online rpg
Các ví dụ về xuất kết quả
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả dưới dạng tùy ý cũng như có cấu trúc, ví dụ như CSV hoặc JSON
Xuất mặc định
Định dạng kết quả:
$style: $text\n
Ví dụ kết quả:
Không phong cách (RU): Ngày xửa ngày xưa có ba chú lợn con, ba anh em.
Và mỗi người trong số họ đều có một ngôi nhà.
Đó là những chú lợn con rất thân thiết.
Họ giúp đỡ nhau trong mọi việc, và nếu có chuyện gì xảy ra với một người, người anh em khác luôn đến giúp đỡ.
Một ngày nọ tuyết rơi dày đặc, và các anh em quyết định trốn tuyết trong nhà của mình.
Nhưng rồi từ trong góc, một con sói xám xuất hiện.
Nó đang đói và thấy rằng các ngôi nhà không có cửa.
Thế là con sói quyết định vào ngôi nhà đầu tiên và ăn thịt chú lợn con.
Con sói nhanh chóng mở cửa và nhìn vào trong.
Các cài đặt có thể có
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Style | Random (All languages) | Chọn phong cách văn bản |
| ID of custom style | Thiết lập số thứ tự phong cách để tạo văn bản | |
| Repeat if Balaboba reports about error | ☑ | Thử lại việc cào dữ liệu nếu Balaboba hiển thị thông báo lỗi |
| Repeat if Balaboba reports about bad query | ☑ | Thử lại việc cào dữ liệu nếu Balaboba hiển thị thông báo do truy vấn không hợp lệ |