Chuyển đến nội dung chính

Util::ReCaptcha2 - nhận diện reCAPTCHA

Tổng quan về công cụ cào dữ liệu

Công cụ cào dữ liệu này chỉ được sử dụng như một thành phần kết nối trong các công cụ cào dữ liệu khác, nơi có thể cần giải Google ReCaptcha v2, ví dụ: SE::GoogleSE::Google, SE::Google::ImagesSE::Google::Images, SE::Google::ByImageSE::Google::ByImage, cũng như các công cụ cào dữ liệu JavaScript tùy chỉnh.

Nguyên lý hoạt động của công cụ cào dữ liệu này là gửi dữ liệu recaptcha (thường là sitekey và url của trang web có recaptcha) đến dịch vụ giải mã và nhận lại một mã token bao gồm chữ và số. Độ chính xác của việc giải mã phụ thuộc hoàn toàn vào dịch vụ giải mã, thông thường các dịch vụ này hầu như luôn giải mã recaptcha chính xác.

Quy trình kết nối và cấu hình chi tiết của công cụ cào dữ liệu này được mô tả trong bài viết Cấu hình ReCaptcha

Các trường hợp ứng dụng công cụ cào dữ liệu

Ví dụ cấu hình giải mã qua Xevil

Trong Xevil, bạn nên chọn loại API Antigate (Anti-Captcha). Trong cài đặt Util::ReCaptcha2Util::ReCaptcha2 tại Provider url, bạn cần chỉ định ip:port của Xevil:

Provider url trong Xevil cho công cụ cào dữ liệu Util::ReCaptcha2

Trong mục Provider, chọn Xevil (AntiGate):

Cấu hình Provider url cho công cụ cào dữ liệu Util::ReCaptcha2

Tính năng

  • Hỗ trợ làm việc với các dịch vụ sau: AntiCaptcha, RuCaptcha, 2captcha, XEvil, CapMonster, CapMonster.cloud, CapSolver, captchas.io, NextCaptcha
  • Khả năng tùy chỉnh thời gian chờ phản hồi và độ trễ kiểm tra trạng thái

Biến thể sử dụng

  • Giải mã recaptcha trong các công cụ cào dữ liệu tích hợp sẵn, nơi việc giải mã captcha là tùy chọn hoặc bắt buộc để nhận kết quả
  • Giải mã recaptcha trong các công cụ cào dữ liệu JS tùy chỉnh

Truy vấn

Công cụ cào dữ liệu chấp nhận hai loại truy vấn:

  • sitekey url
  • sitekey url proxy user-agent

Các tham số được phân tách bằng dấu cách và có ý nghĩa như sau:

  • sitekey - đây là sitekey của recaptcha
  • url - trang web chứa recaptcha
  • proxy - proxy được sử dụng để nhận recaptcha. Tham số phải ở định dạng login:pass@ip:port@type cho proxy có xác thực hoặc ip:port@type cho proxy không xác thực
    • type có thể là http, https, socks4, socks5
  • user-agent - user-agent được sử dụng để nhận recaptcha

Các tùy chọn xuất kết quả

  • $resp - phản hồi của recaptcha
  • $error - nếu xảy ra lỗi, mô tả lỗi đó

Xuất token recaptcha

Định dạng kết quả:

$resp

Ví dụ kết quả:

03AGdBq24qfVWiRMofkMHuxaaW024vkt2Oc4Nnt4WXs3PdV0fJlpDystp444u_rG8HvuJUgN3n-upnHJXeQODxHjn_X9JdRlKEzhDnatYyehxN00WDWN_37LKwdHOgER2TrdB7XBKqrz5rko_CGWea6R1Lfe3eKmkoOeHkTyn8H3ZI90wcSvZR8gSztvq5EZWpGdNgLq15w84F92-PR8S051gUH2Ls82An0N4iiAIcTFrOTQZizqfIjgVzCzqHhSaigIPGy6j8-3nt1sac7q6Xn26fKLsQzd4hZDmrlem5rNoK-IQHEb_AUJ6r4UxQZQ-z4hk9wPpzdeiCi81sxWEX5YI-cn4cWYFsoWutv_DYvZy87Iog7u1VELGWvjT3XwkY3MyDZzpUfauyCGSd5oouLDhV5YnRPfMm-gWQUSRpt28z5xbVbwGSAfmMLEpFboCgKZdUhb-IdAiKHGA4oSXB3RhOA9TQZR-ETVqyUG8A4wJEXdCvEHU7Uhw

Các thiết lập có thể

Để chọn dịch vụ, sử dụng tham số Provider.

Đối với các dịch vụ trực tuyến (AntiCaptcha, RuCaptcha, 2captcha, CapMonster.cloud, CapSolver, captchas.io), bắt buộc phải thiết lập tham số Client key.

Tham sốGiá trị mặc địnhMô tả
Client keyKhóa khách hàng cho các dịch vụ giải mã trực tuyến
Provider urlUrl nhà cung cấp, cho phép ghi đè tên miền. Có thể chỉ định nhiều url cách nhau bằng dấu phẩy, công cụ cào dữ liệu sẽ sử dụng ngẫu nhiên từng url. Có thể để trống, công cụ cào dữ liệu sẽ tự động sử dụng url phù hợp tùy thuộc vào dịch vụ giải mã đã chọn
ProviderAntiCaptchaDịch vụ giải mã
Wait between get status5Độ trễ giữa các lần kiểm tra trạng thái
Max wait time300Thời gian chờ giải mã tối đa