HTML::ArticleExtractor - Công cụ cào dữ liệu bài viết

Tổng quan về công cụ cào dữ liệu

HTML::ArticleExtractor thu thập các bài viết từ các trang web.

Hoạt động với sự hỗ trợ của mô-đun @mozilla/readability được tích hợp sẵn trong A-Parser và thu thập các dữ liệu chính như: tiêu đề, nội dung có định dạng HTML và không có HTML, độ dài bài viết.

Dựa trên công cụ cào dữ liệu Net::HTTP, điều này cho phép duy trì các chức năng của nó. Hỗ trợ cào dữ liệu đa trang (chuyển trang). Có tích hợp các công cụ vượt bảo vệ CloudFlare và cũng có khả năng chọn Chrome làm trình duyệt để cào email từ các trang mà dữ liệu được tải bằng script.

Có khả năng đạt tốc độ lên đến 200 truy vấn mỗi phút – tương đương 12 000 liên kết mỗi giờ.

Chuyển đến bản DEMO Mua A-Parser Pro ($299)

Dữ liệu thu thập được

Tiêu đề bài viết - $title
Chuỗi HTML của nội dung bài viết đã xử lý - $content
Nội dung văn bản của bài viết (đã loại bỏ tất cả HTML) - $textContent
Độ dài bài viết tính bằng ký tự - $length
Mô tả bài viết hoặc đoạn trích ngắn từ nội dung - $excerpt
Siêu dữ liệu tác giả - $byline
Tên trang web - $siteName

Tính năng

Cào dữ liệu đa trang (chuyển trang)
Hỗ trợ nén gzip/deflate/brotli
Tự động nhận diện và chuyển đổi bảng mã của trang web sang UTF-8
Vượt rào cản bảo vệ CloudFlare
Lựa chọn trình duyệt (HTTP hoặc Chrome)
Khả năng thiết lập độ dài bài viết
Cào dữ liệu bài viết có thẻ HTML và không có thẻ HTML

Ứng dụng

Thu thập các bài viết có sẵn từ bất kỳ trang web nào

Truy vấn

Trong phần truy vấn, bạn cần chỉ định các liên kết đến trang cần cào bài viết, ví dụ:

https://a-parser.com/docs/
https://lenta.ru/articles/2021/09/11/buran/
https://www.thetimes.co.uk/article/the-russian-banker-the-royal-fixers-and-a-500-000-riddle-vvgc55b2s

Các ví dụ về kết quả đầu ra

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ bộ tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý cũng như ở dạng cấu trúc như CSV hoặc JSON

Các cài đặt có thể có

ghi chú

Cài đặt chung cho tất cả các công cụ cào dữ liệu Hỗ trợ tất cả cài đặt của công cụ cào dữ liệu Net::HTTP.

Tổng quan về công cụ cào dữ liệu​

Dữ liệu thu thập được​

Tính năng​

Ứng dụng​

Truy vấn​

Các ví dụ về kết quả đầu ra​

Các cài đặt có thể có​