Chuyển đến nội dung chính

HTML::EmailExtractor - Cào dữ liệu địa chỉ email từ các trang web

Tổng quan về công cụ cào dữ liệu

Tổng quan về công cụ cào dữ liệuHTML::EmailExtractorHTML::EmailExtractor thu thập địa chỉ email từ các trang được chỉ định. Hỗ trợ chuyển qua các trang nội bộ của trang web đến độ sâu chỉ định, cho phép duyệt qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài. Công cụ cào dữ liệu Email có các phương tiện tích hợp để vượt qua bảo vệ CloudFlare và cũng có khả năng lựa chọn Chrome làm engine để cào dữ liệu email từ các trang mà dữ liệu trên đó được tải bằng script. Có khả năng đạt tốc độ lên đến 250 truy vấn mỗi phút – tương đương 15 000 liên kết mỗi giờ.

Các trường hợp ứng dụng công cụ cào dữ liệu

Cào dữ liệu email từ trang web với việc duyệt sâu các trang cho đến giới hạn chỉ định

Cào dữ liệu email từ trang web với việc duyệt sâu các trang cho đến giới hạn chỉ định
  1. Thêm tùy chọn Parse to level, trong danh sách chọn giá trị cần thiết (giới hạn).
  2. Trong phần Queries (Truy vấn), tích chọn tùy chọn Unique queries.
  3. Trong phần Results (Kết quả), tích chọn tùy chọn Unique string.
  4. Nhập liên kết đến trang web cần cào dữ liệu email làm truy vấn.
Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Cào dữ liệu email theo danh sách trang web với việc duyệt sâu mỗi trang cho đến giới hạn chỉ định

Cào dữ liệu email theo danh sách trang web với việc duyệt sâu mỗi trang cho đến giới hạn chỉ định
  1. Thêm tùy chọn Parse to level, trong danh sách chọn giá trị cần thiết (giới hạn).
  2. Trong phần Queries (Truy vấn), tích chọn tùy chọn Unique queries.
  3. Trong phần Results (Kết quả), tích chọn tùy chọn Unique string.
  4. Nhập các liên kết đến trang web cần cào dữ liệu email làm truy vấn, hoặc trong phần Queries from chọn File và tải lên tệp truy vấn với danh sách các trang web.
Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Cào dữ liệu email theo danh sách liên kết

Cào dữ liệu email theo danh sách liên kết
  1. Trong phần Queries (Truy vấn), tích chọn tùy chọn Unique queries.
  2. Trong phần Results (Kết quả), tích chọn tùy chọn Unique string.
  3. Nhập các liên kết cần cào dữ liệu email làm truy vấn, hoặc trong phần Queries from chọn File và tải lên tệp truy vấn với danh sách các liên kết.
Tải xuống ví dụ

Cách nhập ví dụ vào A-Parser

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

Dữ liệu thu thập được

Ví dụ dữ liệu thu thập được

  • Địa chỉ email
  • Tổng số lượng địa chỉ trên trang
  • Mảng chứa tất cả các trang đã thu thập (được sử dụng khi bật tùy chọn Use Pages)

Tính năng

  • Cào dữ liệu nhiều trang (chuyển trang)
  • Chuyển qua các trang nội bộ của trang web đến độ sâu chỉ định (tùy chọn Parse to level) – cho phép duyệt qua tất cả các trang của trang web, thu thập các liên kết nội bộ và bên ngoài
  • Xác định follow links cho các liên kết
  • Giới hạn số lần chuyển trang (tùy chọn Follow links limit)
  • Khả năng chỉ định coi các tên miền phụ là trang nội bộ của trang web
  • Hỗ trợ nén gzip/deflate/brotli
  • Xác định và chuyển đổi bảng mã của trang web sang UTF-8
  • Vượt qua bảo vệ CloudFlare
  • Lựa chọn engine (HTTP hoặc Chrome)
  • Hỗ trợ toàn bộ chức năng của HTML::LinkExtractorHTML::LinkExtractor

Các phương án sử dụng

  • Cào dữ liệu địa chỉ email
  • Xuất số lượng địa chỉ email

Truy vấn

Cần chỉ định các liên kết đến trang làm truy vấn, ví dụ:

https://a-parser.com/pages/support/

Các phương án xuất kết quả

A-Parser hỗ trợ định dạng kết quả linh hoạt nhờ trình tạo mẫu tích hợp Template Toolkit, cho phép xuất kết quả ở dạng tùy ý, cũng như ở dạng cấu trúc như CSV hoặc JSON

Xuất số lượng địa chỉ email

Định dạng kết quả:

$mailcount

Ví dụ kết quả:

4

Các cài đặt có thể có

Tên tham sốGiá trị mặc địnhMô tả
Good statusAllChọn phản hồi nào từ máy chủ sẽ được coi là thành công. Nếu khi cào dữ liệu nhận được phản hồi khác từ máy chủ, truy vấn sẽ được lặp lại với proxy khác
Good code RegExKhả năng chỉ định biểu thức chính quy để kiểm tra mã phản hồi
Ban Proxy Code RegExKhả năng chặn proxy tạm thời (Proxy ban time) dựa trên mã phản hồi của máy chủ
MethodGETPhương thức truy vấn
POST bodyNội dung để truyền lên máy chủ khi sử dụng phương thức POST. Hỗ trợ các biến $query – URL truy vấn, $query.orig – truy vấn gốc và $pagenum - số trang khi sử dụng tùy chọn Use Pages.
CookiesKhả năng chỉ định cookies cho truy vấn.
User agent_Tự động chèn user-agent của phiên bản Chrome hiện tại_Tiêu đề User-Agent khi truy vấn các trang
Additional headersKhả năng chỉ định các tiêu đề truy vấn tùy ý với sự hỗ trợ của trình tạo mẫu và sử dụng các biến từ trình tạo truy vấn
Read only headersChỉ đọc tiêu đề. Trong một số trường hợp giúp tiết kiệm lưu lượng nếu không cần xử lý nội dung
Detect charset on contentNhận dạng bảng mã dựa trên nội dung trang
Emulate browser headersGiả lập tiêu đề trình duyệt
Max redirects count0Số lượng chuyển hướng tối đa mà công cụ cào dữ liệu sẽ thực hiện
Follow common redirectsCho phép thực hiện chuyển hướng http <-> https và www.domain <-> domain trong phạm vi một tên miền mà không tính vào giới hạn Max redirects count
Max cookies count16Số lượng cookies tối đa để lưu trữ
EngineHTTP (Fast, JavaScript Disabled)Cho phép chọn engine HTTP (nhanh hơn, không có JavaScript) hoặc Chrome (chậm hơn, có bật JavaScript)
Chrome HeadlessNếu tùy chọn này được bật, trình duyệt sẽ không hiển thị
Chrome DevToolsCho phép sử dụng các công cụ gỡ lỗi Chromium
Chrome Log Proxy connectionsNếu tùy chọn này được bật, thông tin về các kết nối chrome sẽ được ghi vào log
Chrome Wait Untilnetworkidle2Xác định khi nào trang được coi là đã tải xong. Chi tiết về các giá trị.
Use HTTP/2 transportXác định có sử dụng HTTP/2 thay vì HTTP/1.1 hay không. Ví dụ, Google và Majestic sẽ chặn ngay lập tức nếu sử dụng HTTP/1.1.
Don't verify TLS certsTắt xác thực chứng chỉ TLS
Randomize TLS FingerprintTùy chọn này cho phép vượt qua việc chặn trang web theo dấu vân tay TLS
Bypass CloudFlareTự động vượt qua kiểm tra CloudFlare
Bypass CloudFlare with Chrome(Experimental)Vượt qua CF thông qua Chrome
Bypass CloudFlare with Chrome Max Pages20Số lượng trang tối đa khi vượt qua CF qua Chrome
Subdomains are internalCó coi các tên miền phụ là liên kết nội bộ hay không
Follow linksInternal onlyCác loại liên kết nào sẽ được chuyển tiếp
Follow links limit0Giới hạn Follow links, áp dụng cho mỗi tên miền duy nhất
Skip comment blocksCó bỏ qua các khối bình luận hay không
Search Cloudflare protected e-mailsCó cào dữ liệu các email được bảo vệ bởi Cloudflare hay không.
Skip non-HTML blocksKhông thu thập địa chỉ email trong các thẻ (script, style, comment, v.v.).
Skip meta tagsKhông thu thập địa chỉ email trong các thẻ meta
Search URL encoded e-mailsThu thập các email được mã hóa URL