跳转到主要内容

HTML::EmailExtractor - 从网站页面抓取电子邮件地址

爬虫工具概览

爬虫工具概览HTML::EmailExtractorHTML::EmailExtractor 从指定页面采集电子邮箱地址。支持深入跳转至网站内部页面至指定深度,从而遍历网站所有页面并采集内部和外部链接。Email 爬虫工具内置了绕过 CloudFlare 防护的手段,并可选择 Chrome 作为引擎,用于抓取由脚本加载数据的页面。其速度最高可达每分钟 250 次请求 —— 即每小时 15 000 个链接。

爬虫工具应用案例

从网站抓取邮箱并深入页面至指定限制

从网站抓取邮箱并深入页面至指定限制
  1. 添加选项 Parse to level (爬取至层级),在列表中选择所需数值(限制)。
  2. Queries (查询) 环节勾选 Unique queries 选项。
  3. Results (结果) 环节勾选 Unique string 选项。
  4. 在查询框中输入需要抓取邮箱的网站链接。
下载示例

如何将示例导入 A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

根据网站列表抓取邮箱并深入每个网站至指定限制

根据网站列表抓取邮箱并深入每个网站至指定限制
  1. 添加选项 Parse to level (爬取至层级),在列表中选择所需数值(限制)。
  2. Queries (查询) 环节勾选 Unique queries 选项。
  3. Results (结果) 环节勾选 Unique string 选项。
  4. 在查询框中输入需要抓取邮箱的网站链接,或在 Queries from (查询来源) 中选择 File 并上传包含网站列表的查询文件。
下载示例

如何将示例导入 A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

根据链接列表抓取邮箱

根据链接列表抓取邮箱
  1. Queries (查询) 环节勾选 Unique queries 选项。
  2. Results (结果) 环节勾选 Unique string 选项。
  3. 在查询框中输入需要抓取邮箱的链接,或在 Queries from (查询来源) 中选择 File 并上传包含链接列表的查询文件。
下载示例

如何将示例导入 A-Parser

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

采集的数据

采集数据示例

  • 电子邮箱地址
  • 页面上的邮箱总数
  • 包含所有已采集页面的数组(在使用 Use Pages 选项时使用)

功能

  • 多页数据抓取(翻页跳转)
  • 深入跳转至网站内部页面至指定深度(Parse to level 选项)——允许遍历网站所有页面,采集内部和外部链接
  • 识别链接的 follow 属性
  • 页面跳转限制(Follow links limit 选项)
  • 可选择将子域名视为网站内部页面
  • 支持 gzip/deflate/brotli 压缩
  • 自动识别并将网站编码转换为 UTF-8
  • 绕过 CloudFlare 防护
  • 可选引擎(HTTP 或 Chrome)
  • 支持 HTML::LinkExtractorHTML::LinkExtractor 的所有功能

应用场景

  • 抓取 email 地址
  • 统计 email 地址数量

查询

查询中需要指定页面链接,例如:

https://a-parser.com/pages/support/

结果输出示例

得益于内置的 Template Toolkit 模板引擎,A-Parser 支持灵活的结果格式化,允许以任意形式输出结果,包括 CSV 或 JSON 等结构化格式

输出 email 地址数量

结果格式:

$mailcount

结果示例:

4

可选设置

参数名称默认值描述
Good statusAll选择哪些服务器响应被视为成功。如果抓取时收到其他响应,将使用另一个代理重试请求
Good code RegEx可指定用于检查响应代码的正则表达式
Ban Proxy Code RegEx可根据服务器响应代码临时封禁代理 (Proxy ban time)
MethodGET请求方法
POST body使用 POST 方法时发送到服务器的内容。支持变量:$query —— 请求 URL,$query.orig —— 原始查询,以及在使用 Use Pages 选项时的 $pagenum —— 页码。
Cookies可为请求指定 cookies。
User agent_自动填入当前版本 Chrome 的 User-Agent_请求页面时的 User-Agent 请求头
Additional headers可指定自定义请求头,支持模板引擎功能并可使用查询构造器中的变量
Read only headers仅读取响应头。在无需处理内容的情况下可节省流量
Detect charset on content根据页面内容识别编码
Emulate browser headers模拟浏览器请求头
Max redirects count0爬虫工具执行重定向的最大次数
Follow common redirects允许在同一域名内进行 http <-> https 和 www.domain <-> domain 的重定向,不受 Max redirects count 限制
Max cookies count16保存 cookies 的最大数量
EngineHTTP (Fast, JavaScript Disabled)可选择 HTTP 引擎(速度快,无 JavaScript)或 Chrome 引擎(速度慢,启用 JavaScript)
Chrome Headless如果启用此选项,将不显示浏览器界面
Chrome DevTools允许使用 Chromium 调试工具
Chrome Log Proxy connections如果启用此选项,日志中将输出 chrome 连接信息
Chrome Wait Untilnetworkidle2定义页面何时被视为加载完成。了解更多关于取值的信息。
Use HTTP/2 transport定义是否使用 HTTP/2 代替 HTTP/1.1。例如,Google 和 Majestic 如果检测到使用 HTTP/1.1 会立即封禁。
Don't verify TLS certs禁用 TLS 证书验证
Randomize TLS Fingerprint此选项允许通过 TLS 指纹绕过网站封禁
Bypass CloudFlare自动绕过 CloudFlare 检查
Bypass CloudFlare with Chrome(Experimental)通过 Chrome 绕过 CF
Bypass CloudFlare with Chrome Max Pages20通过 Chrome 绕过 CF 时的最大页面数
Subdomains are internal是否将子域名视为内部链接
Follow linksInternal only追踪哪些链接
Follow links limit0Follow links 限制,应用于每个唯一域名
Skip comment blocks是否跳过注释块
Search Cloudflare protected e-mails是否抓取 Cloudflare 保护的邮箱。
Skip non-HTML blocks不采集特定标签(script, style, comment 等)中的邮箱地址。
Skip meta tags不采集 meta 标签中的邮箱地址
Search URL encoded e-mails采集 URL 编码的邮箱