Passer au contenu principal

Util::Turnstile - reconnaissance des captchas Cloudflare Turnstile

Présentation du scraper

Ce scraper est utilisé uniquement comme composant intégré dans d'autres scrapers où il peut être nécessaire de résoudre des captchas Cloudflare Turnstile, par exemple les scrapers Ahrefs, ainsi que dans des scrapers JavaScript personnalisés.

Le principe de fonctionnement de ce scraper consiste à envoyer les données Turnstile (généralement le sitekey et l'URL de la page où le captcha Turnstile a été obtenu) à un service de résolution et à recevoir en retour un jeton composé de chiffres et de lettres. La précision de la résolution dépend uniquement du service de résolution ; en règle générale, les services résolvent presque toujours Turnstile correctement.

Fonctionnalités

  • Prise en charge des services suivants : AntiCaptcha, RuCaptcha, 2captcha, CapMonster.cloud, CapSolver, captchas.io
  • Possibilité de configurer le temps d'attente de la réponse et le délai de vérification du statut
  • Possibilité de résoudre le captcha sans utiliser de services tiers. Pour activer cette option, vous devez sélectionner Auto (using Chrome) dans Provider. Chrome (puppeteer) est utilisé pour la résolution, tenez-en compte lors de la configuration du nombre de threads.

Cas d'utilisation

  • Contournement de Cloudflare Turnstile dans les scrapers où il est optionnel ou obligatoire de résoudre ce type de captcha pour obtenir des résultats

Requêtes

Le scraper accepte deux types de requêtes :

  • sitekey url
  • sitekey url proxy user-agent

Les paramètres sont séparés par un espace et signifient :

  • sitekey - il s'agit de la clé de site (sitekey) Turnstile
  • url - la page sur laquelle se trouve le Turnstile
  • proxy - le proxy via lequel le Cloudflare Turnstile a été obtenu. Le paramètre doit être au format login:pass@ip:port@type pour les proxys avec authentification ou ip:port@type pour les proxys sans authentification
    • type peut être http, https, socks4, socks5
  • user-agent - l'agent utilisateur avec lequel le Turnstile a été obtenu

Exemples de sortie de résultats

  • $resp - réponse (jeton) Cloudflare Turnstile
  • $error - si une erreur survient, sa description

Sortie du jeton Cloudflare Turnstile

Format du résultat :

$resp

Exemple de résultat :

0.uM0rQLy_vdWZNwOml8TMpvPgtXuqMs3H_2A7D5txxc27kHNFcGh2UOS1MQ82GiF3Dd6-VyOEgdBf1Ef3Q6xjwRYZH3V8YJdv4wgxfTtyH5stVsBOP6qWrE0Zu-txfDmJIJ_THkeK8wrYODLwj3p948zdiufJScERCVhsx1aPIurXAidPWhJslVutd4uTbMAvuGcYg7Nj-wwbW6VKGuofBHIx116Xt7_9eXISzWFy5se95e2FYVY4n4oGU3xSkoUnUCw0fcBMBP8Vik8Qde-qd53mc7YAGKeRKj9yV0t2erTc4i9ZeRjR22Fxm1nN_SkbdAHjj-oATJmxyfMAFoT_MEwe2WliuvuoPrkCAZYe8S0.QqD0sL8h2B_8jYaa792YPA.04643a6fbd94c593eee9770924ddefbd6d227e84dcfca973ab840728c122fc5d

Paramètres possibles

Le paramètre Provider est utilisé pour choisir le service.

ParamètreValeur par défautDescription
Client keyClé client pour les services de résolution en ligne
Provider urlURL du fournisseur, permet de redéfinir le domaine. Vous pouvez en spécifier plusieurs séparés par des virgules, le scraper utilisera chacun d'eux de manière aléatoire. Peut être vide, le scraper utilisera automatiquement celui approprié en fonction du service de résolution choisi
ProviderAntiCaptchaService de résolution
Wait between get status5Délai entre les récupérations de statut
Max wait time300Temps d'attente maximum pour la résolution