Util::ReCaptcha3 - 识别 Google ReCaptcha v3
爬虫工具概览
该爬虫工具旨在作为其他爬虫工具的可选组件,用于需要破解 Google ReCaptcha v3 的场景。
该爬虫工具的工作原理是将验证码数据(通常是 sitekey 和获取验证码的页面 url)发送到识别服务,并接收由数字和字母组成的令牌(token)作为响应。识别的正确性完全取决于识别服务,通常这些服务几乎总能正确破解验证码。
功能与优势
- 支持以下服务:AntiCaptcha、RuCaptcha、2captcha、XEvil、CapMonster、CapMonster.cloud、CapSolver、captchas.io、NextCaptcha
- 可配置等待响应的时间和检查状态的延迟
应用场景
- 在内置爬虫工具中识别 Google ReCaptcha v3,这些工具可能可选或必须破解验证码才能获取结果
- 在自定义 JS 爬虫工具中识别 Google ReCaptcha v3
查询
爬虫工具接受如下格式的查询:
sitekeyurl
参数以空格分隔,含义如下:
sitekey- 这是验证码的 sitekey,在某些服务中被称为 websitekey。通常需要从页面代码中获取,一般位于引入脚本的 URL 中:
https://www.google.com/recaptcha/api.js?render=SITEKEY
此外,页面代码中的 sitekey 也可以作为函数参数指定:
grecaptcha.execute(SITEKEY, {action:'verify'}).
url- 验证码所在的页面
结果输出示例
$resp- 验证码响应结果$error- 如果发生错误,显示其描述
输出验证码令牌
结果格式:
$resp
结果示例:
03AGdBq24qfVWiRMofkMHuxaaW024vkt2Oc4Nnt4WXs3PdV0fJlpDystp444u_rG8HvuJUgN3n-upnHJXeQODxHjn_X9JdRlKEzhDnatYyehxN00WDWN_37LKwdHOgER2TrdB7XBKqrz5rko_CGWea6R1Lfe3eKmkoOeHkTyn8H3ZI90wcSvZR8gSztvq5EZWpGdNgLq15w84F92-PR8S051gUH2Ls82An0N4iiAIcTFrOTQZizqfIjgVzCzqHhSaigIPGy6j8-3nt1sac7q6Xn26fKLsQzd4hZDmrlem5rNoK-IQHEb_AUJ6r4UxQZQ-z4hk9wPpzdeiCi81sxWEX5YI-cn4cWYFsoWutv_DYvZy87Iog7u1VELGWvjT3XwkY3MyDZzpUfauyCGSd5oouLDhV5YnRPfMm-gWQUSRpt28z5xbVbwGSAfmMLEpFboCgKZdUhb-IdAiKHGA4oSXB3RhOA9TQZR-ETVqyUG8A4wJEXdCvEHU7Uhw
可能的设置
使用 Provider 参数选择所使用的服务。
对于在线服务(AntiCaptcha、RuCaptcha、2captcha、CapMonster.cloud、CapSolver、captchas.io),必须设置 Client key 参数。
| 参数 | 默认值 | 描述 |
|---|---|---|
| Client key | 在线识别服务的客户端密钥 | |
| Provider url | 服务商 URL,允许覆盖域名。可以指定多个并用逗号分隔,爬虫工具将随机使用其中之一。可以为空,爬虫工具将根据所选的识别服务自动使用相应的 URL | |
| Provider | AntiCaptcha | 识别服务 |
| Wait between get status | 5 | 获取状态之间的延迟 |
| Max wait time | 300 | 等待识别的最长时间 |
| minScore | 0.3 | 结果的最低置信度。针对每个特定网站通过实验确定。在请求识别服务时,它决定了筛选具有所需最低分数的作业人员的过滤器 |
| pageAction | 传递给 Google 的 action 参数值,网站所有者在验证令牌时会看到该值。通常作为函数参数指定:grecaptcha.execute('sitekey', {action:'ACTION 值'}) | |
| isEnterprise | ☐ | 指示识别服务需要将此验证码作为 Recaptcha Enterprise V3 解决。并非所有识别服务都支持此功能 |