HTML::TextExtractor::LangDetect - Xác định ngôn ngữ trang web

Tổng quan về công cụ cào dữ liệu

HTML::TextExtractor::LangDetect xác định ngôn ngữ của trang web, cũng như độ chính xác của việc xác định tính theo phần trăm. Hỗ trợ cào dữ liệu nhiều trang và chuyển hướng qua các trang nội bộ của trang web đến độ sâu được chỉ định, cho phép đi qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài. Có các công cụ tích hợp để vượt qua bảo vệ CloudFlare và cũng có khả năng lựa chọn Chrome làm engine để cào email từ các trang mà dữ liệu được tải bằng script. Có khả năng đạt tốc độ lên tới 2000 truy vấn mỗi phút – tương đương 120 000 liên kết mỗi giờ.

Chuyển đến bản DEMO Mua A-Parser Pro ($299)

Dữ liệu thu thập được

Xác định ngôn ngữ của trang web
Độ chính xác tính bằng %

Tính năng

Cào dữ liệu nhiều trang (chuyển hướng qua các trang)
Hỗ trợ nén gzip/deflate/brotli
Xác định và chuyển đổi mã hóa của trang web sang UTF-8
Vượt tường lửa CloudFlare
Lựa chọn engine (HTTP hoặc Chrome)
Xác định ngôn ngữ trang web không cần sử dụng dịch vụ bên thứ ba
Độ chính xác tính bằng %

Ứng dụng

Lọc các tên miền có ngôn ngữ nội dung cụ thể

Truy vấn

Trong các truy vấn, bạn cần chỉ định danh sách các trang web, ví dụ:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Các ví dụ về kết quả đầu ra

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào trình tạo mẫu tích hợp Template Toolkit, cho phép nó xuất kết quả ở bất kỳ dạng nào, cũng như ở dạng cấu trúc như CSV hoặc JSON

Đầu ra mặc định

Định dạng kết quả:

$query: $lang\n

Ví dụ kết quả:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Các cài đặt có thể

ghi chú

Cài đặt chung cho tất cả các công cụ cào dữ liệu

Tên tham số	Giá trị mặc định	Mô tả
Good status	`All`	Chọn phản hồi nào từ máy chủ sẽ được coi là thành công. Nếu khi cào dữ liệu có phản hồi khác từ máy chủ, truy vấn sẽ được lặp lại với proxy khác.
Good code RegEx		Khả năng chỉ định biểu thức chính quy để kiểm tra mã phản hồi.
Method	`GET`	Phương thức truy vấn.
POST body		Nội dung để gửi đến máy chủ khi sử dụng phương thức POST. Hỗ trợ các biến `$query` – URL truy vấn, `$query.orig` – truy vấn gốc và `$pagenum` - số trang khi sử dụng tùy chọn Use Pages.
Cookies		Khả năng chỉ định cookies cho truy vấn.
User agent	`Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)`	Tiêu đề User-Agent khi truy vấn các trang.
Additional headers		Khả năng chỉ định các tiêu đề truy vấn tùy chỉnh với sự hỗ trợ của trình tạo mẫu và sử dụng các biến từ trình tạo truy vấn.
Read only headers	`☐`	Chỉ đọc tiêu đề. Trong một số trường hợp giúp tiết kiệm lưu lượng nếu không cần xử lý nội dung.
Detect charset on content	`☐`	Nhận dạng mã hóa dựa trên nội dung trang.
Emulate browser headers	`☐`	Giả lập tiêu đề trình duyệt.
Max redirects count	`7`	Số lượng chuyển hướng tối đa mà công cụ cào dữ liệu sẽ thực hiện.
Max cookies count	`16`	Số lượng cookies tối đa để lưu trữ.
Bypass CloudFlare	`☑`	Tự động vượt qua kiểm tra CloudFlare.
Follow common redirects	`☑`	Cho phép thực hiện chuyển hướng http <-> https và www.domain <-> domain trong cùng một tên miền mà không tính vào giới hạn Max redirects count.
Engine	`HTTP (Fast, JavaScript Disabled)`	Cho phép chọn engine HTTP (nhanh hơn, không JavaScript) hoặc Chrome (chậm hơn, có bật JavaScript).
Chrome Headless	`☐`	Nếu tùy chọn này được bật, trình duyệt sẽ không hiển thị.
Chrome DevTools	`☑`	Cho phép sử dụng các công cụ gỡ lỗi Chromium.
Chrome Log Proxy connections	`☑`	Nếu tùy chọn này được bật, thông tin về các kết nối chrome sẽ được hiển thị trong nhật ký.
Chrome Wait Until	`networkidle2`	Xác định khi nào trang được coi là đã tải xong. Chi tiết về các giá trị.
Use HTTP/2 transport	`☐`	Xác định có sử dụng HTTP/2 thay vì HTTP/1.1 hay không. Ví dụ, Google và Majestic sẽ chặn ngay lập tức nếu sử dụng HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)	`☐`	Vượt CF thông qua Chrome.
Bypass CloudFlare with Chrome Max Pages		Số trang tối đa khi vượt CF thông qua Chrome.

Tổng quan về công cụ cào dữ liệu​

Dữ liệu thu thập được​

Tính năng​

Ứng dụng​

Truy vấn​

Các ví dụ về kết quả đầu ra​

Đầu ra mặc định​

Các cài đặt có thể​