Công cụ kiểm tra Proxy
Phần này hiển thị số liệu thống kê hoạt động của tất cả các trình kiểm tra proxy. Mỗi trình kiểm tra proxy là một mô-đun hoạt động liên tục (nếu được bật), thực hiện kiểm tra proxy và nhờ đó luôn có danh sách proxy sống cập nhật.
Bạn có thể thêm số lượng trình kiểm tra proxy không giới hạn và chọn một hoặc nhiều trình kiểm tra cho mỗi tác vụ hoặc thậm chí cho mỗi công cụ cào dữ liệu trong tác vụ. Bằng cách này, trong cùng một tác vụ, bạn có thể sử dụng một số proxy nhất định để cào dữ liệu Google và các proxy hoàn toàn khác cho Yandex.

Phía trên hiển thị tổng số proxy sống và số lượng trình kiểm tra proxy đang chạy (hoạt động). Phía trên bên phải là nút để thêm trình kiểm tra proxy mới. Chi tiết về quy trình thêm trình kiểm tra proxy được mô tả trong phần Thiết lập Proxy.
Bên dưới là danh sách tất cả các trình kiểm tra proxy hiện có dưới dạng thẻ thông tin. Mỗi thẻ hiển thị các thông tin sau:
- Working path - thư mục chứa các tệp của trình kiểm tra proxy trong
aparser/files/proxy - Update time - thời gian kiểm tra cuối cùng của danh sách proxy đã tải
- Số lượng proxy trong hàng đợi kiểm tra và tổng số lượng proxy đã tải
- Số lượng proxy sống
- Load state (Trạng thái tải) hoặc ngày tải tiếp theo từ các nguồn proxy
- Số lượng nguồn mà proxy được tải thành công lần cuối và tổng số nguồn trong trình kiểm tra proxy này
- Trạng thái kiểm tra proxy hiện tại
Hộp kiểm Enabled (Đã bật) cạnh các nút điều khiển trình kiểm tra proxy cho phép bật/tắt trình kiểm tra đó.
Trình kiểm tra proxy default luôn đứng đầu danh sách. Nó là mẫu cho các trình kiểm tra proxy mới và không thể chỉnh sửa hoặc xóa.
Cấu trúc tệp
Các tệp làm việc của trình kiểm tra proxy nằm trong thư mục files/proxy/<tên trình kiểm tra proxy>:
proxy.txt- proxy được tải từ tệp này, bạn cần đặt danh sách proxy vào đâysites.txt- bạn cần đặt danh sách các nguồn proxy vào tệp này (các liên kết đến proxy, định dạng mỗi liên kết một dòng)alive.txt- các proxy sống được lưu vào tệp này mỗi 5 giây nếu tùy chọn tương ứng được bậtregex.txt- tệp này chứa danh sách các biểu thức chính quy để cào dữ liệu proxy từ các nguồn bên ngoài (định dạng mỗi biểu thức chính quy một dòng, $1 phải là địa chỉ IP, $2 là cổng)
Nếu bạn có liên kết đến các nguồn proxy - hãy chỉ định chúng trong tệp sites.txt, tệp proxy.txt nên để trống
Đối với trình kiểm tra proxy "default", các tệp nằm trong thư mục gốc files/proxy/
Thêm và thiết lập trình kiểm tra proxy
Vào menu "Proxy Checker" và nhấn "Add checker" hoặc chọn "Edit" trong menu thả xuống của trình kiểm tra proxy hiện có. Bạn sẽ được chuyển đến trang thiết lập trình kiểm tra proxy.

Nếu cần, hãy thiết lập số lượng luồng cần thiết để kiểm tra proxy (Check threads), chọn loại proxy (Proxy type) và thay đổi các cài đặt khác. Các giá trị tham số mặc định phù hợp với hầu hết các tác vụ. Lưu cài đặt dưới dạng trình kiểm tra proxy mới. Không thể thay đổi và lưu cài đặt của trình kiểm tra proxy default.
Các nguồn proxy được chỉ định trong các tệp bên trong thư mục có tên của trình kiểm tra proxy đã tạo (files/proxy/.../):
- liên kết trong sites.txt
- danh sách proxy trong proxy.txt

Proxy với quyền truy cập IP
Proxy có quyền truy cập theo IP được thiết lập theo cách tương tự.
Danh sách proxy có cùng tên đăng nhập và mật khẩu cho tất cả proxy
Phương pháp này phù hợp cho các trường hợp danh sách proxy có định dạng ip:port và tên đăng nhập/mật khẩu giống nhau cho toàn bộ danh sách proxy
Trong cài đặt trình kiểm tra, hãy chỉ định:
- login
- password
- Sử dụng xác thực proxy (Use proxy authorization)

Danh sách proxy có mật khẩu khác nhau cho mỗi proxy
Trong trường hợp này, danh sách proxy phải có định dạng login:password@ip:port, trong cài đặt trình kiểm tra chỉ cần chỉ định Use proxy authorization (Sử dụng xác thực proxy) (Use proxy authorization)

⏩ Video: kết nối proxy có xác thực
Chọn trình kiểm tra proxy cho tác vụ
Các cài đặt này cần thiết để phân chia hoạt động của các tác vụ với các trình kiểm tra proxy khác nhau, bạn có thể bỏ qua phần này nếu cần sử dụng tất cả các proxy có sẵn trong tất cả các tác vụ
Vào menu Settings -> Config Presets, chọn cấu hình (preset) mong muốn hoặc tạo cấu hình mới (nút Save as New (Add new)).
Trong trường Proxy Checkers, hãy chọn một hoặc nhiều trình kiểm tra proxy (để sử dụng, các trình kiểm tra proxy phải được bật) và lưu lại (Save). Bạn cũng có thể chọn tất cả các trình kiểm tra proxy cùng lúc bằng tùy chọn All (giá trị mặc định).

Bây giờ bạn có thể sử dụng Cấu hình luồng đã tạo với các proxy đã chỉ định trong các tác vụ của mình bằng cách chọn nó trong Trình chỉnh sửa tác vụ.

Bạn cũng có thể ghi đè trình kiểm tra proxy trong mỗi công cụ cào dữ liệu bằng tính năng ghi đè - Proxy Checker.

Tùy chọn Exclude from "All" trong cài đặt trình kiểm tra proxy cho phép loại trừ các proxy của nó khỏi việc sử dụng chung trong A-Parser. Tùy chọn này hữu ích trong các trường hợp cần làm cho một số proxy nhất định chỉ khả dụng từ các tác vụ cụ thể hoặc chỉ cho các công cụ cào dữ liệu cụ thể:
- đối với tác vụ, cần chọn bắt buộc trình kiểm tra proxy đã bị loại trừ
- đối với một công cụ cào dữ liệu cụ thể, cần thiết lập sử dụng trình kiểm tra proxy đã bị loại trừ trong cài đặt
Thay đổi trong logic
Trước đây, nếu một trình kiểm tra proxy cụ thể được chọn trong tác vụ, nhưng một trình kiểm tra proxy khác được chỉ định trong công cụ cào dữ liệu, thì công cụ cào dữ liệu sẽ chờ proxy. Hiện tại, cài đặt của công cụ cào dữ liệu cụ thể có ưu tiên cao hơn:
- "All" - sử dụng tất cả các proxy được chọn cho tác vụ
- trình kiểm tra proxy cụ thể - sử dụng nó, ngay cả khi nó không được chọn trong tác vụ
Các tham số của trình kiểm tra proxy
| Tên tham số | Giá trị mặc định | Mô tả |
|---|---|---|
| Loading type | Replace | Xác định xem có lưu các proxy đã tải trước đó hay không, Add - luôn thêm proxy mới vào danh sách chung, Replace - thay thế các proxy cũ bằng các proxy mới được tải |
| Load threads count | 5 | Số lượng luồng tải proxy từ các trang web |
| Load interval | 30 | Khoảng thời gian giữa các lần kiểm tra lại toàn bộ danh sách trang web |
| Load timeout | 30 | Thời gian chờ cho yêu cầu đến trang web chứa proxy |
| Load max size | 524288 | Kích thước tối đa của trang chứa proxy, nếu trang lớn hơn nó sẽ bị cắt bớt đến kích thước đã chỉ định |
| Load limit count | 0 | Giới hạn số lượng proxy được tải, 0 để tắt |
| No check proxies | ☐ | Cho phép tắt kiểm tra proxy. Tất cả các proxy đã tải sẽ tự động được coi là sống |
| Proxies type | HTTP, SOCKS5 | Chọn loại proxy nào cần kiểm tra và theo thứ tự nào, nếu chỉ định cả HTTP và SOCKS thì khi kiểm tra HTTP thất bại, proxy sẽ được kiểm tra lại với giao thức SOCKS |
| Check threads | 15 | Số lượng luồng kiểm tra proxy |
| Check url | http://work.a-poster.info:25000/ | Liên kết đến tập lệnh kiểm tra proxy, hiện tại việc kiểm tra được thực hiện thông qua máy chủ của công cụ cào dữ liệu, trong tương lai hành vi này có thể thay đổi |
| Check interval | 30 | Khoảng thời gian giữa các lần kiểm tra lại toàn bộ tất cả các proxy |
| Check timeout | 5 | Thời gian chờ của proxy |
| Check max size | 5120 | Kích thước tối đa của trang được tải xuống khi kiểm tra proxy |
| Check anonymous | ☐ | Kiểm tra tính ẩn danh của proxy, nếu chọn thì bắt buộc phải chỉ định External IP |
| External IP | Địa chỉ IP bên ngoài của máy tính\máy chủ, cần chỉ định nếu tùy chọn Check anonymous được bật | |
| Exclude from "All" | ☐ | Theo mặc định, trong mỗi công cụ cào dữ liệu, giá trị "All" được chọn làm trình kiểm tra proxy, nghĩa là tất cả các trình kiểm tra proxy có sẵn đều được sử dụng. Nếu tùy chọn này được bật, trình kiểm tra proxy sẽ bị loại trừ khỏi All. |
| Save alive proxies to file | No | Lưu các proxy sống vào tệp files/proxy/alive.txt |
| Use proxy authorization | ☐ | Sử dụng xác thực cho proxy theo tên đăng nhập\mật khẩu |
| Authorization login | Tên đăng nhập để xác thực | |
| Authorization password | Mật khẩu để xác thực |
Cài đặt tập lệnh kiểm tra trên hosting
Theo mặc định, A-Parser kiểm tra proxy thông qua tập lệnh kiểm tra của riêng mình mà không cần cài đặt tập lệnh trên hosting của bạn
Tải tập lệnh PHP sau lên hosting hoặc máy chủ của bạn và chỉ định liên kết đến nó trong Check url:
<?php
print_r($_SERVER);
print_r($_POST);
?>