Util::ReCaptcha2 - nhận diện reCAPTCHA
Tổng quan về công cụ cào dữ liệu
Công cụ cào dữ liệu này chỉ được sử dụng như một thành phần kết nối trong các công cụ cào dữ liệu khác, nơi có thể cần giải Google ReCaptcha v2, ví dụ:
SE::Google,
SE::Google::Images,
SE::Google::ByImage, cũng như các công cụ cào dữ liệu JavaScript tùy chỉnh.
Nguyên lý hoạt động của công cụ cào dữ liệu này là gửi dữ liệu recaptcha (thường là sitekey và url của trang web có recaptcha) đến dịch vụ giải mã và nhận lại một mã token bao gồm chữ và số. Độ chính xác của việc giải mã phụ thuộc hoàn toàn vào dịch vụ giải mã, thông thường các dịch vụ này hầu như luôn giải mã recaptcha chính xác.
Quy trình kết nối và cấu hình chi tiết của công cụ cào dữ liệu này được mô tả trong bài viết Cấu hình ReCaptcha
Các trường hợp ứng dụng công cụ cào dữ liệu
🔗 ReCaptcha trong các công cụ cào dữ liệu JS
Ví dụ về công cụ cào dữ liệu JS để làm việc với recaptcha
Ví dụ cấu hình giải mã qua Xevil
Trong Xevil, bạn nên chọn loại API Antigate (Anti-Captcha). Trong cài đặt
Util::ReCaptcha2 tại Provider url, bạn cần chỉ định ip:port của Xevil:

Trong mục Provider, chọn Xevil (AntiGate):

Tính năng
- Hỗ trợ làm việc với các dịch vụ sau: AntiCaptcha, RuCaptcha, 2captcha, XEvil, CapMonster, CapMonster.cloud, CapSolver, captchas.io, NextCaptcha
- Khả năng tùy chỉnh thời gian chờ phản hồi và độ trễ kiểm tra trạng thái
Biến thể sử dụng
- Giải mã recaptcha trong các công cụ cào dữ liệu tích hợp sẵn, nơi việc giải mã captcha là tùy chọn hoặc bắt buộc để nhận kết quả
- Giải mã recaptcha trong các công cụ cào dữ liệu JS tùy chỉnh
Truy vấn
Công cụ cào dữ liệu chấp nhận hai loại truy vấn:
sitekeyurlsitekeyurlproxyuser-agent
Các tham số được phân tách bằng dấu cách và có ý nghĩa như sau:
sitekey- đây là sitekey của recaptchaurl- trang web chứa recaptchaproxy- proxy được sử dụng để nhận recaptcha. Tham số phải ở định dạnglogin:pass@ip:port@typecho proxy có xác thực hoặcip:port@typecho proxy không xác thực- type có thể là
http,https,socks4,socks5
- type có thể là
user-agent- user-agent được sử dụng để nhận recaptcha
Các tùy chọn xuất kết quả
$resp- phản hồi của recaptcha$error- nếu xảy ra lỗi, mô tả lỗi đó
Xuất token recaptcha
Định dạng kết quả:
$resp
Ví dụ kết quả:
03AGdBq24qfVWiRMofkMHuxaaW024vkt2Oc4Nnt4WXs3PdV0fJlpDystp444u_rG8HvuJUgN3n-upnHJXeQODxHjn_X9JdRlKEzhDnatYyehxN00WDWN_37LKwdHOgER2TrdB7XBKqrz5rko_CGWea6R1Lfe3eKmkoOeHkTyn8H3ZI90wcSvZR8gSztvq5EZWpGdNgLq15w84F92-PR8S051gUH2Ls82An0N4iiAIcTFrOTQZizqfIjgVzCzqHhSaigIPGy6j8-3nt1sac7q6Xn26fKLsQzd4hZDmrlem5rNoK-IQHEb_AUJ6r4UxQZQ-z4hk9wPpzdeiCi81sxWEX5YI-cn4cWYFsoWutv_DYvZy87Iog7u1VELGWvjT3XwkY3MyDZzpUfauyCGSd5oouLDhV5YnRPfMm-gWQUSRpt28z5xbVbwGSAfmMLEpFboCgKZdUhb-IdAiKHGA4oSXB3RhOA9TQZR-ETVqyUG8A4wJEXdCvEHU7Uhw
Các thiết lập có thể
Để chọn dịch vụ, sử dụng tham số Provider.
Đối với các dịch vụ trực tuyến (AntiCaptcha, RuCaptcha, 2captcha, CapMonster.cloud, CapSolver, captchas.io), bắt buộc phải thiết lập tham số Client key.
| Tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Client key | Khóa khách hàng cho các dịch vụ giải mã trực tuyến | |
| Provider url | Url nhà cung cấp, cho phép ghi đè tên miền. Có thể chỉ định nhiều url cách nhau bằng dấu phẩy, công cụ cào dữ liệu sẽ sử dụng ngẫu nhiên từng url. Có thể để trống, công cụ cào dữ liệu sẽ tự động sử dụng url phù hợp tùy thuộc vào dịch vụ giải mã đã chọn | |
| Provider | AntiCaptcha | Dịch vụ giải mã |
| Wait between get status | 5 | Độ trễ giữa các lần kiểm tra trạng thái |
| Max wait time | 300 | Thời gian chờ giải mã tối đa |