Przejdź do treści głównej

Util::Turnstile - rozpoznawanie captcha Cloudflare Turnstile

Przegląd scrapera

Ten scraper jest używany wyłącznie jako komponent podrzędny w innych scraperach, gdzie może być konieczne rozwiązywanie captch Cloudflare Turnstile, na przykład scrapery Ahrefs, a także w niestandardowych scraperach JavaScript.

Zasada działania tego scrapera polega na wysyłaniu danych Turnstile (zazwyczaj jest to sitekey i url strony, na której otrzymano captchę Turnstile) do serwisu rozwiązującego i otrzymaniu w odpowiedzi tokena składającego się z cyfr i liter. Poprawność rozwiązania zależy wyłącznie od serwisu rozwiązującego; z reguły serwisy prawie zawsze rozwiązują Turnstile poprawnie.

Funkcje

  • Obsługiwana jest współpraca z następującymi serwisami: AntiCaptcha, RuCaptcha, 2captcha, CapMonster.cloud, CapSolver, captchas.io
  • Możliwość konfiguracji czasu oczekiwania na odpowiedź oraz opóźnienia sprawdzenia statusu
  • Możliwość rozwiązywania captchy bez użycia serwisów zewnętrznych. Aby włączyć tę funkcję, w Provider należy wybrać Auto (using browser). Do rozwiązywania używana jest przeglądarka, należy to uwzględnić przy konfigurowaniu liczby wątków.

Zastosowania

  • Omijanie Cloudflare Turnstile w scraperach, w których opcjonalnie lub obowiązkowo należy rozwiązywać ten rodzaj captch w celu uzyskania wyników

Zapytania

Scraper przyjmuje zapytania dwóch rodzajów:

  • sitekey url
  • sitekey url proxy user-agent

Parametry są oddzielone spacją i oznaczają:

  • sitekey - to sitekey Turnstile
  • url - strona, na której znajduje się Turnstile
  • proxy - proxy, przez które otrzymano Cloudflare Turnstile. Parametr powinien być w formacie login:pass@ip:port@type dla proxy z autoryzacją lub ip:port@type dla proxy bez autoryzacji
    • type może być http, https, socks4, socks5
  • user-agent - user-agent, z którym otrzymano Turnstile

Przykłady wyników wyjściowych

  • $resp - odpowiedź (token) Cloudflare Turnstile
  • $error - jeśli wystąpił błąd, jego opis

Wyświetlanie tokena Cloudflare Turnstile

Format wyniku:

$resp

Przykład wyniku:

0.uM0rQLy_vdWZNwOml8TMpvPgtXuqMs3H_2A7D5txxc27kHNFcGh2UOS1MQ82GiF3Dd6-VyOEgdBf1Ef3Q6xjwRYZH3V8YJdv4wgxfTtyH5stVsBOP6qWrE0Zu-txfDmJIJ_THkeK8wrYODLwj3p948zdiufJScERCVhsx1aPIurXAidPWhJslVutd4uTbMAvuGcYg7Nj-wwbW6VKGuofBHIx116Xt7_9eXISzWFy5se95e2FYVY4n4oGU3xSkoUnUCw0fcBMBP8Vik8Qde-qd53mc7YAGKeRKj9yV0t2erTc4i9ZeRjR22Fxm1nN_SkbdAHjj-oATJmxyfMAFoT_MEwe2WliuvuoPrkCAZYe8S0.QqD0sL8h2B_8jYaa792YPA.04643a6fbd94c593eee9770924ddefbd6d227e84dcfca973ab840728c122fc5d

Możliwe ustawienia

Do wyboru serwisu służy parametr Provider.

ParametrWartość domyślnaOpis
Client keyKlucz klienta dla online serwisów rozwiązywania
Provider urlUrl dostawcy, pozwala nadpisać domenę. Można podać kilka oddzielonych przecinkiem, scraper będzie używał każdego z nich w losowej kolejności. Może być pusty, scraper automatycznie użyje odpowiedniego w zależności od wybranego serwisu rozwiązywania
ProviderAntiCaptchaSerwis rozwiązywania
Wait between get status5Opóźnienie między pobieraniem statusu
Max wait time300Maksymalny czas oczekiwania na rozwiązanie
Max browser pages for Auto modeOgranicza liczbę jednocześnie otwartych stron przeglądarki podczas rozwiązywania captchy, jeśli w Provider wybrano Auto (using browser)