跳转到主要内容

Util::ReCaptcha2 - ReCaptcha 识别

爬虫工具概览

该爬虫工具仅作为其他爬虫工具的插件组件使用,用于需要破解 Google ReCaptcha v2 的场景,例如:SE::GoogleSE::GoogleSE::Google::ImagesSE::Google::ImagesSE::Google::ByImageSE::Google::ByImage 以及自定义 JavaScript 爬虫工具。

该爬虫工具的工作原理是将 ReCaptcha 数据(通常是 sitekey 和获取 ReCaptcha 的页面 URL)发送到识别服务,并接收由数字和字母组成的令牌作为响应。识别的准确性完全取决于识别服务,通常这些服务几乎总能正确识别 ReCaptcha。

有关该爬虫工具的连接和配置过程的详细说明,请参阅文章 ReCaptcha 设置

爬虫工具应用案例

通过 Xevil 设置识别示例

在 Xevil 中建议选择 API 类型 Antigate (Anti-Captcha)。在 Util::ReCaptcha2Util::ReCaptcha2Provider url 设置中需要填写 Xevil 的 ip:port

Util::ReCaptcha2 爬虫工具在 Xevil 中的 Provider url

Provider 中选择 Xevil (AntiGate)

为 Util::ReCaptcha2 爬虫工具配置 Provider url

功能

  • 支持与以下服务配合使用:AntiCaptcha, RuCaptcha, 2captcha, XEvil, CapMonster, CapMonster.cloud, CapSolver, captchas.io, NextCaptcha
  • 能够设置等待响应的时间和检查状态的延迟

选项使用

  • 在内置爬虫工具中识别 ReCaptcha,这些工具可以选择性或必须识别验证码以获取结果
  • 在自定义 JS 爬虫工具中识别 ReCaptcha

查询

该爬虫工具接受两种形式的查询:

  • sitekey url
  • sitekey url proxy user-agent

参数由空格分隔,含义如下:

  • sitekey - ReCaptcha 的 sitekey
  • url - ReCaptcha 所在的页面
  • proxy - 获取 ReCaptcha 时使用的代理。对于需要认证的代理,参数格式应为 login:pass@ip:port@type;对于无需认证的代理,格式为 ip:port@type
    • type 可以是 http, https, socks4, socks5
  • user-agent - 获取 ReCaptcha 时使用的 User-Agent

结果输出选项

  • $resp - ReCaptcha 响应
  • $error - 如果发生错误,显示其描述

输出 ReCaptcha 令牌

结果格式:

$resp

结果示例:

03AGdBq24qfVWiRMofkMHuxaaW024vkt2Oc4Nnt4WXs3PdV0fJlpDystp444u_rG8HvuJUgN3n-upnHJXeQODxHjn_X9JdRlKEzhDnatYyehxN00WDWN_37LKwdHOgER2TrdB7XBKqrz5rko_CGWea6R1Lfe3eKmkoOeHkTyn8H3ZI90wcSvZR8gSztvq5EZWpGdNgLq15w84F92-PR8S051gUH2Ls82An0N4iiAIcTFrOTQZizqfIjgVzCzqHhSaigIPGy6j8-3nt1sac7q6Xn26fKLsQzd4hZDmrlem5rNoK-IQHEb_AUJ6r4UxQZQ-z4hk9wPpzdeiCi81sxWEX5YI-cn4cWYFsoWutv_DYvZy87Iog7u1VELGWvjT3XwkY3MyDZzpUfauyCGSd5oouLDhV5YnRPfMm-gWQUSRpt28z5xbVbwGSAfmMLEpFboCgKZdUhb-IdAiKHGA4oSXB3RhOA9TQZR-ETVqyUG8A4wJEXdCvEHU7Uhw

可能的设置

使用 Provider 参数选择服务。

对于在线服务(AntiCaptcha, RuCaptcha, 2captcha, CapMonster.cloud, CapSolver, captchas.io),必须设置 Client key 参数。

参数默认值描述
Client key在线识别服务的客户端密钥
Provider url提供商 URL,允许覆盖域名。可以指定多个并用逗号分隔,爬虫工具将随机使用其中之一。可以为空,爬虫工具将根据所选的识别服务自动使用所需的 URL
ProviderAntiCaptcha识别服务
Wait between get status5获取状态之间的延迟
Max wait time300等待识别的最大时间