HTML::TextExtractor::LangDetect - Xác định ngôn ngữ trang web
Tổng quan về công cụ cào dữ liệu

HTML::TextExtractor::LangDetect xác định ngôn ngữ của trang web, cũng như độ chính xác của việc xác định tính theo phần trăm. Hỗ trợ cào dữ liệu nhiều trang và chuyển hướng qua các trang nội bộ của trang web đến độ sâu được chỉ định, cho phép đi qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài. Có các công cụ tích hợp để vượt qua bảo vệ CloudFlare và cũng có khả năng lựa chọn Chrome làm engine để cào email từ các trang mà dữ liệu được tải bằng script. Có khả năng đạt tốc độ lên tới 2000 truy vấn mỗi phút – tương đương 120 000 liên kết mỗi giờ.Dữ liệu thu thập được
- Xác định ngôn ngữ của trang web
- Độ chính xác tính bằng %
Tính năng
- Cào dữ liệu nhiều trang (chuyển hướng qua các trang)
- Hỗ trợ nén gzip/deflate/brotli
- Xác định và chuyển đổi mã hóa của trang web sang UTF-8
- Vượt tường lửa CloudFlare
- Lựa chọn engine (HTTP hoặc Chrome)
- Xác định ngôn ngữ trang web không cần sử dụng dịch vụ bên thứ ba
- Độ chính xác tính bằng %
Ứng dụng
- Lọc các tên miền có ngôn ngữ nội dung cụ thể
Truy vấn
Trong các truy vấn, bạn cần chỉ định danh sách các trang web, ví dụ:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Các ví dụ về kết quả đầu ra
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào trình tạo mẫu tích hợp Template Toolkit, cho phép nó xuất kết quả ở bất kỳ dạng nào, cũng như ở dạng cấu trúc như CSV hoặc JSON
Đầu ra mặc định
Định dạng kết quả:
$query: $lang\n
Ví dụ kết quả:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Các cài đặt có thể
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Good status | All | Chọn phản hồi nào từ máy chủ sẽ được coi là thành công. Nếu khi cào dữ liệu có phản hồi khác từ máy chủ, truy vấn sẽ được lặp lại với proxy khác. |
| Good code RegEx | Khả năng chỉ định biểu thức chính quy để kiểm tra mã phản hồi. | |
| Method | GET | Phương thức truy vấn. |
| POST body | Nội dung để gửi đến máy chủ khi sử dụng phương thức POST. Hỗ trợ các biến $query – URL truy vấn, $query.orig – truy vấn gốc và $pagenum - số trang khi sử dụng tùy chọn Use Pages. | |
| Cookies | Khả năng chỉ định cookies cho truy vấn. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | Tiêu đề User-Agent khi truy vấn các trang. |
| Additional headers | Khả năng chỉ định các tiêu đề truy vấn tùy chỉnh với sự hỗ trợ của trình tạo mẫu và sử dụng các biến từ trình tạo truy vấn. | |
| Read only headers | ☐ | Chỉ đọc tiêu đề. Trong một số trường hợp giúp tiết kiệm lưu lượng nếu không cần xử lý nội dung. |
| Detect charset on content | ☐ | Nhận dạng mã hóa dựa trên nội dung trang. |
| Emulate browser headers | ☐ | Giả lập tiêu đề trình duyệt. |
| Max redirects count | 7 | Số lượng chuyển hướng tối đa mà công cụ cào dữ liệu sẽ thực hiện. |
| Max cookies count | 16 | Số lượng cookies tối đa để lưu trữ. |
| Bypass CloudFlare | ☑ | Tự động vượt qua kiểm tra CloudFlare. |
| Follow common redirects | ☑ | Cho phép thực hiện chuyển hướng http <-> https và www.domain <-> domain trong cùng một tên miền mà không tính vào giới hạn Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Cho phép chọn engine HTTP (nhanh hơn, không JavaScript) hoặc Chrome (chậm hơn, có bật JavaScript). |
| Chrome Headless | ☐ | Nếu tùy chọn này được bật, trình duyệt sẽ không hiển thị. |
| Chrome DevTools | ☑ | Cho phép sử dụng các công cụ gỡ lỗi Chromium. |
| Chrome Log Proxy connections | ☑ | Nếu tùy chọn này được bật, thông tin về các kết nối chrome sẽ được hiển thị trong nhật ký. |
| Chrome Wait Until | networkidle2 | Xác định khi nào trang được coi là đã tải xong. Chi tiết về các giá trị. |
| Use HTTP/2 transport | ☐ | Xác định có sử dụng HTTP/2 thay vì HTTP/1.1 hay không. Ví dụ, Google và Majestic sẽ chặn ngay lập tức nếu sử dụng HTTP/1.1. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Vượt CF thông qua Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Số trang tối đa khi vượt CF thông qua Chrome. |