Chuyển đến nội dung chính

HTML::TextExtractor::LangDetect - Xác định ngôn ngữ trang web

Tổng quan về công cụ cào dữ liệu

Tổng quan về công cụ cào dữ liệuHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect xác định ngôn ngữ của trang web, cũng như độ chính xác của việc xác định tính theo phần trăm. Hỗ trợ cào dữ liệu nhiều trang và chuyển hướng qua các trang nội bộ của trang web đến độ sâu được chỉ định, cho phép đi qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài. Có các công cụ tích hợp để vượt qua bảo vệ CloudFlare và cũng có khả năng lựa chọn Chrome làm engine để cào email từ các trang mà dữ liệu được tải bằng script. Có khả năng đạt tốc độ lên tới 2000 truy vấn mỗi phút – tương đương 120 000 liên kết mỗi giờ.

Dữ liệu thu thập được

  • Xác định ngôn ngữ của trang web
  • Độ chính xác tính bằng %

Tính năng

  • Cào dữ liệu nhiều trang (chuyển hướng qua các trang)
  • Hỗ trợ nén gzip/deflate/brotli
  • Xác định và chuyển đổi mã hóa của trang web sang UTF-8
  • Vượt tường lửa CloudFlare
  • Lựa chọn engine (HTTP hoặc Chrome)
  • Xác định ngôn ngữ trang web không cần sử dụng dịch vụ bên thứ ba
  • Độ chính xác tính bằng %

Ứng dụng

  • Lọc các tên miền có ngôn ngữ nội dung cụ thể

Truy vấn

Trong các truy vấn, bạn cần chỉ định danh sách các trang web, ví dụ:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Các ví dụ về kết quả đầu ra

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ vào trình tạo mẫu tích hợp Template Toolkit, cho phép nó xuất kết quả ở bất kỳ dạng nào, cũng như ở dạng cấu trúc như CSV hoặc JSON

Đầu ra mặc định

Định dạng kết quả:

$query: $lang\n

Ví dụ kết quả:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Các cài đặt có thể

Tên tham sốGiá trị mặc địnhMô tả
Good statusAllChọn phản hồi nào từ máy chủ sẽ được coi là thành công. Nếu khi cào dữ liệu có phản hồi khác từ máy chủ, truy vấn sẽ được lặp lại với proxy khác.
Good code RegExKhả năng chỉ định biểu thức chính quy để kiểm tra mã phản hồi.
MethodGETPhương thức truy vấn.
POST bodyNội dung để gửi đến máy chủ khi sử dụng phương thức POST. Hỗ trợ các biến $query – URL truy vấn, $query.orig – truy vấn gốc và $pagenum - số trang khi sử dụng tùy chọn Use Pages.
CookiesKhả năng chỉ định cookies cho truy vấn.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Tiêu đề User-Agent khi truy vấn các trang.
Additional headersKhả năng chỉ định các tiêu đề truy vấn tùy chỉnh với sự hỗ trợ của trình tạo mẫu và sử dụng các biến từ trình tạo truy vấn.
Read only headersChỉ đọc tiêu đề. Trong một số trường hợp giúp tiết kiệm lưu lượng nếu không cần xử lý nội dung.
Detect charset on contentNhận dạng mã hóa dựa trên nội dung trang.
Emulate browser headersGiả lập tiêu đề trình duyệt.
Max redirects count7Số lượng chuyển hướng tối đa mà công cụ cào dữ liệu sẽ thực hiện.
Max cookies count16Số lượng cookies tối đa để lưu trữ.
Bypass CloudFlareTự động vượt qua kiểm tra CloudFlare.
Follow common redirectsCho phép thực hiện chuyển hướng http <-> https và www.domain <-> domain trong cùng một tên miền mà không tính vào giới hạn Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Cho phép chọn engine HTTP (nhanh hơn, không JavaScript) hoặc Chrome (chậm hơn, có bật JavaScript).
Chrome HeadlessNếu tùy chọn này được bật, trình duyệt sẽ không hiển thị.
Chrome DevToolsCho phép sử dụng các công cụ gỡ lỗi Chromium.
Chrome Log Proxy connectionsNếu tùy chọn này được bật, thông tin về các kết nối chrome sẽ được hiển thị trong nhật ký.
Chrome Wait Untilnetworkidle2Xác định khi nào trang được coi là đã tải xong. Chi tiết về các giá trị.
Use HTTP/2 transportXác định có sử dụng HTTP/2 thay vì HTTP/1.1 hay không. Ví dụ, Google và Majestic sẽ chặn ngay lập tức nếu sử dụng HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)Vượt CF thông qua Chrome.
Bypass CloudFlare with Chrome Max PagesSố trang tối đa khi vượt CF thông qua Chrome.