Ga naar de hoofdinhoud

Util::ReCaptcha2 - reCAPTCHA-herkenning

Overzicht van de scraper

Deze scraper wordt alleen gebruikt als een plug-in component in andere scrapers waar het nodig kan zijn om Google ReCaptcha v2 op te lossen, bijvoorbeeld: SE::GoogleSE::Google, SE::Google::ImagesSE::Google::Images, SE::Google::ByImageSE::Google::ByImage, evenals in aangepaste JavaScript-scrapers.

Het werkingsprincipe van deze scraper is het verzenden van reCAPTCHA-gegevens (meestal de sitekey en de URL van de pagina waarop de reCAPTCHA is ontvangen) naar een oplossingsservice en het in ruil daarvoor ontvangen van een token bestaande uit cijfers en letters. De correctheid van de oplossing hangt uitsluitend af van de oplossingsservice; over het algemeen lossen services reCAPTCHA's bijna altijd correct op.

Het proces van het verbinden en configureren van deze scraper wordt gedetailleerd beschreven in het artikel reCAPTCHA-instellingen

Toepassingen van de scraper

Voorbeeld van configuratie voor oplossing via Xevil

In Xevil wordt aanbevolen om het API-type Antigate (Anti-Captcha) te selecteren. In de instellingen van Util::ReCaptcha2Util::ReCaptcha2 moet bij Provider url de ip:port van Xevil worden opgegeven:

Provider url in Xevil voor de scraper Util::ReCaptcha2

Selecteer bij Provider Xevil (AntiGate):

Configuratie van Provider url voor de scraper Util::ReCaptcha2

Mogelijkheden

  • Ondersteuning voor de volgende services: AntiCaptcha, RuCaptcha, 2captcha, XEvil, CapMonster, CapMonster.cloud, CapSolver, captchas.io, NextCaptcha
  • Mogelijkheid om de wachttijd voor antwoord en de vertraging voor statuscontrole te configureren

Gebruiksscenario's

  • Herkenning van reCAPTCHA's in ingebouwde scrapers, waarbij het optioneel of verplicht is om captcha's op te lossen om resultaten te verkrijgen
  • Herkenning van reCAPTCHA's in eigen JS-scrapers

Query's

De scraper accepteert twee soorten query's:

  • sitekey url
  • sitekey url proxy user-agent

Parameters worden gescheiden door een spatie en betekenen:

  • sitekey - dit is de sitekey van de reCAPTCHA
  • url - de pagina waarop de reCAPTCHA zich bevindt
  • proxy - de proxy waarmee de reCAPTCHA is ontvangen. De parameter moet in het formaat login:pass@ip:port@type zijn voor proxy's met autorisatie of ip:port@type voor proxy's zonder autorisatie
    • type kan http, https, socks4, socks5 zijn
  • user-agent - de user-agent waarmee de reCAPTCHA is ontvangen

Voorbeelden van resultaatweergave

  • $resp - het reCAPTCHA-antwoord
  • $error - als er een fout is opgetreden, de beschrijving ervan

Uitvoer van het reCAPTCHA-token

Resultaatformaat:

$resp

Voorbeeldresultaat:

03AGdBq24qfVWiRMofkMHuxaaW024vkt2Oc4Nnt4WXs3PdV0fJlpDystp444u_rG8HvuJUgN3n-upnHJXeQODxHjn_X9JdRlKEzhDnatYyehxN00WDWN_37LKwdHOgER2TrdB7XBKqrz5rko_CGWea6R1Lfe3eKmkoOeHkTyn8H3ZI90wcSvZR8gSztvq5EZWpGdNgLq15w84F92-PR8S051gUH2Ls82An0N4iiAIcTFrOTQZizqfIjgVzCzqHhSaigIPGy6j8-3nt1sac7q6Xn26fKLsQzd4hZDmrlem5rNoK-IQHEb_AUJ6r4UxQZQ-z4hk9wPpzdeiCi81sxWEX5YI-cn4cWYFsoWutv_DYvZy87Iog7u1VELGWvjT3XwkY3MyDZzpUfauyCGSd5oouLDhV5YnRPfMm-gWQUSRpt28z5xbVbwGSAfmMLEpFboCgKZdUhb-IdAiKHGA4oSXB3RhOA9TQZR-ETVqyUG8A4wJEXdCvEHU7Uhw

Mogelijke instellingen

De parameter Provider wordt gebruikt om de service te selecteren.

Voor online services (AntiCaptcha, RuCaptcha, 2captcha, CapMonster.cloud, CapSolver, captchas.io) is het verplicht om de parameter Client key in te stellen.

ParameterStandaardwaardeBeschrijving
Client keyCliëntsleutel voor online oplossingsservices
Provider urlProvider-URL, hiermee kan het domein worden overschreven. Meerdere kunnen door komma's gescheiden worden opgegeven, de scraper zal ze elk in willekeurige volgorde gebruiken. Kan leeg zijn, de scraper gebruikt automatisch de juiste afhankelijk van de geselecteerde oplossingsservice
ProviderAntiCaptchaOplossingsservice
Wait between get status5Vertraging tussen het ophalen van de status
Max wait time300Maximale wachttijd voor oplossing