HTML::ArticleExtractor - Công cụ cào dữ liệu bài viết
Tổng quan về công cụ cào dữ liệu

HTML::ArticleExtractor thu thập các bài viết từ các trang web.Hoạt động với sự hỗ trợ của mô-đun @mozilla/readability được tích hợp sẵn trong A-Parser và thu thập các dữ liệu chính như: tiêu đề, nội dung có định dạng HTML và không có HTML, độ dài bài viết.
Dựa trên công cụ cào dữ liệu
Net::HTTP, điều này cho phép duy trì các chức năng của nó. Hỗ trợ cào dữ liệu đa trang (chuyển trang). Có tích hợp các công cụ vượt bảo vệ CloudFlare và cũng có khả năng chọn Chrome làm trình duyệt để cào email từ các trang mà dữ liệu được tải bằng script.
Có khả năng đạt tốc độ lên đến 200 truy vấn mỗi phút – tương đương 12 000 liên kết mỗi giờ.
Dữ liệu thu thập được
- Tiêu đề bài viết -
$title - Chuỗi HTML của nội dung bài viết đã xử lý -
$content - Nội dung văn bản của bài viết (đã loại bỏ tất cả HTML) -
$textContent - Độ dài bài viết tính bằng ký tự -
$length - Mô tả bài viết hoặc đoạn trích ngắn từ nội dung -
$excerpt - Siêu dữ liệu tác giả -
$byline - Tên trang web -
$siteName
Tính năng
- Cào dữ liệu đa trang (chuyển trang)
- Hỗ trợ nén gzip/deflate/brotli
- Tự động nhận diện và chuyển đổi bảng mã của trang web sang UTF-8
- Vượt rào cản bảo vệ CloudFlare
- Lựa chọn trình duyệt (HTTP hoặc Chrome)
- Khả năng thiết lập độ dài bài viết
- Cào dữ liệu bài viết có thẻ HTML và không có thẻ HTML
Ứng dụng
- Thu thập các bài viết có sẵn từ bất kỳ trang web nào
Truy vấn
Trong phần truy vấn, bạn cần chỉ định các liên kết đến trang cần cào bài viết, ví dụ:
https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s
Các ví dụ về kết quả đầu ra
A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý cũng như ở dạng cấu trúc như CSV hoặc JSON
Các cài đặt có thể có
Cài đặt chung cho tất cả các công cụ cào dữ liệu
Hỗ trợ tất cả cài đặt của công cụ cào dữ liệu
Net::HTTP.