Chuyển đến nội dung chính

Công cụ kiểm tra Proxy

Phần này hiển thị số liệu thống kê hoạt động của tất cả các trình kiểm tra proxy. Mỗi trình kiểm tra proxy là một mô-đun hoạt động liên tục (nếu được bật), thực hiện kiểm tra proxy và nhờ đó luôn có danh sách proxy sống cập nhật.

Bạn có thể thêm số lượng trình kiểm tra proxy không giới hạn và chọn một hoặc nhiều trình kiểm tra cho mỗi tác vụ hoặc thậm chí cho mỗi công cụ cào dữ liệu trong tác vụ. Bằng cách này, trong cùng một tác vụ, bạn có thể sử dụng một số proxy nhất định để cào dữ liệu Google và các proxy hoàn toàn khác cho Yandex.

Tổng quan về Proxy Checker

Phía trên hiển thị tổng số proxy sống và số lượng trình kiểm tra proxy đang chạy (hoạt động). Phía trên bên phải là nút để thêm trình kiểm tra proxy mới. Chi tiết về quy trình thêm trình kiểm tra proxy được mô tả trong phần Thiết lập Proxy.

Bên dưới là danh sách tất cả các trình kiểm tra proxy hiện có dưới dạng thẻ thông tin. Mỗi thẻ hiển thị các thông tin sau:

  • Working path - thư mục chứa các tệp của trình kiểm tra proxy trong aparser/files/proxy
  • Update time - thời gian kiểm tra cuối cùng của danh sách proxy đã tải
  • Số lượng proxy trong hàng đợi kiểm tra và tổng số lượng proxy đã tải
  • Số lượng proxy sống
  • Load state (Trạng thái tải) hoặc ngày tải tiếp theo từ các nguồn proxy
  • Số lượng nguồn mà proxy được tải thành công lần cuối và tổng số nguồn trong trình kiểm tra proxy này
  • Trạng thái kiểm tra proxy hiện tại

Hộp kiểm Enabled (Đã bật) cạnh các nút điều khiển trình kiểm tra proxy cho phép bật/tắt trình kiểm tra đó.

Trình kiểm tra proxy default luôn đứng đầu danh sách. Nó là mẫu cho các trình kiểm tra proxy mới và không thể chỉnh sửa hoặc xóa.

Cấu trúc tệp

Các tệp làm việc của trình kiểm tra proxy nằm trong thư mục files/proxy/<tên trình kiểm tra proxy>:

  • proxy.txt - proxy được tải từ tệp này, bạn cần đặt danh sách proxy vào đây
  • sites.txt - bạn cần đặt danh sách các nguồn proxy vào tệp này (các liên kết đến proxy, định dạng mỗi liên kết một dòng)
  • alive.txt - các proxy sống được lưu vào tệp này mỗi 5 giây nếu tùy chọn tương ứng được bật
  • regex.txt - tệp này chứa danh sách các biểu thức chính quy để cào dữ liệu proxy từ các nguồn bên ngoài (định dạng mỗi biểu thức chính quy một dòng, $1 phải là địa chỉ IP, $2 là cổng)
ghi chú

Nếu bạn có liên kết đến các nguồn proxy - hãy chỉ định chúng trong tệp sites.txt, tệp proxy.txt nên để trống
Đối với trình kiểm tra proxy "default", các tệp nằm trong thư mục gốc files/proxy/

Thêm và thiết lập trình kiểm tra proxy

Vào menu "Proxy Checker" và nhấn "Add checker" hoặc chọn "Edit" trong menu thả xuống của trình kiểm tra proxy hiện có. Bạn sẽ được chuyển đến trang thiết lập trình kiểm tra proxy.

Thêm Proxy Checker

Nếu cần, hãy thiết lập số lượng luồng cần thiết để kiểm tra proxy (Check threads), chọn loại proxy (Proxy type) và thay đổi các cài đặt khác. Các giá trị tham số mặc định phù hợp với hầu hết các tác vụ. Lưu cài đặt dưới dạng trình kiểm tra proxy mới. Không thể thay đổi và lưu cài đặt của trình kiểm tra proxy default.

Các nguồn proxy được chỉ định trong các tệp bên trong thư mục có tên của trình kiểm tra proxy đã tạo (files/proxy/.../):

  • liên kết trong sites.txt
  • danh sách proxy trong proxy.txt
Nguồn proxy trong thư mục làm việc

Proxy với quyền truy cập IP

Proxy có quyền truy cập theo IP được thiết lập theo cách tương tự.

Danh sách proxy có cùng tên đăng nhập và mật khẩu cho tất cả proxy

Phương pháp này phù hợp cho các trường hợp danh sách proxy có định dạng ip:port và tên đăng nhập/mật khẩu giống nhau cho toàn bộ danh sách proxy

Trong cài đặt trình kiểm tra, hãy chỉ định:

  • login
  • password
  • Sử dụng xác thực proxy (Use proxy authorization)
Thiết lập: danh sách proxy có cùng tên đăng nhập mật khẩu cho tất cả proxy

Danh sách proxy có mật khẩu khác nhau cho mỗi proxy

Trong trường hợp này, danh sách proxy phải có định dạng login:password@ip:port, trong cài đặt trình kiểm tra chỉ cần chỉ định Use proxy authorization (Sử dụng xác thực proxy) (Use proxy authorization)

Thiết lập: danh sách proxy có mật khẩu khác nhau cho mỗi proxy

⏩ Video: kết nối proxy có xác thực

Chọn trình kiểm tra proxy cho tác vụ

ghi chú

Các cài đặt này cần thiết để phân chia hoạt động của các tác vụ với các trình kiểm tra proxy khác nhau, bạn có thể bỏ qua phần này nếu cần sử dụng tất cả các proxy có sẵn trong tất cả các tác vụ

Vào menu Settings -> Config Presets, chọn cấu hình (preset) mong muốn hoặc tạo cấu hình mới (nút Save as New (Add new)).

Trong trường Proxy Checkers, hãy chọn một hoặc nhiều trình kiểm tra proxy (để sử dụng, các trình kiểm tra proxy phải được bật) và lưu lại (Save). Bạn cũng có thể chọn tất cả các trình kiểm tra proxy cùng lúc bằng tùy chọn All (giá trị mặc định).

Chọn trình kiểm tra proxy cho một tác vụ

Bây giờ bạn có thể sử dụng Cấu hình luồng đã tạo với các proxy đã chỉ định trong các tác vụ của mình bằng cách chọn nó trong Trình chỉnh sửa tác vụ.

Chọn cấu hình luồng

Bạn cũng có thể ghi đè trình kiểm tra proxy trong mỗi công cụ cào dữ liệu bằng tính năng ghi đè - Proxy Checker.

Ghi đè Proxy Checker

Tùy chọn Exclude from "All" trong cài đặt trình kiểm tra proxy cho phép loại trừ các proxy của nó khỏi việc sử dụng chung trong A-Parser. Tùy chọn này hữu ích trong các trường hợp cần làm cho một số proxy nhất định chỉ khả dụng từ các tác vụ cụ thể hoặc chỉ cho các công cụ cào dữ liệu cụ thể:

  • đối với tác vụ, cần chọn bắt buộc trình kiểm tra proxy đã bị loại trừ
  • đối với một công cụ cào dữ liệu cụ thể, cần thiết lập sử dụng trình kiểm tra proxy đã bị loại trừ trong cài đặt

Thay đổi trong logic

Trước đây, nếu một trình kiểm tra proxy cụ thể được chọn trong tác vụ, nhưng một trình kiểm tra proxy khác được chỉ định trong công cụ cào dữ liệu, thì công cụ cào dữ liệu sẽ chờ proxy. Hiện tại, cài đặt của công cụ cào dữ liệu cụ thể có ưu tiên cao hơn:

  • "All" - sử dụng tất cả các proxy được chọn cho tác vụ
  • trình kiểm tra proxy cụ thể - sử dụng nó, ngay cả khi nó không được chọn trong tác vụ

Các tham số của trình kiểm tra proxy

Tên tham sốGiá trị mặc địnhMô tả
Loading typeReplaceXác định xem có lưu các proxy đã tải trước đó hay không, Add - luôn thêm proxy mới vào danh sách chung, Replace - thay thế các proxy cũ bằng các proxy mới được tải
Load threads count5Số lượng luồng tải proxy từ các trang web
Load interval30Khoảng thời gian giữa các lần kiểm tra lại toàn bộ danh sách trang web
Load timeout30Thời gian chờ cho yêu cầu đến trang web chứa proxy
Load max size524288Kích thước tối đa của trang chứa proxy, nếu trang lớn hơn nó sẽ bị cắt bớt đến kích thước đã chỉ định
Load limit count0Giới hạn số lượng proxy được tải, 0 để tắt
No check proxiesCho phép tắt kiểm tra proxy. Tất cả các proxy đã tải sẽ tự động được coi là sống
Proxies typeHTTP, SOCKS5Chọn loại proxy nào cần kiểm tra và theo thứ tự nào, nếu chỉ định cả HTTP và SOCKS thì khi kiểm tra HTTP thất bại, proxy sẽ được kiểm tra lại với giao thức SOCKS
Check threads15Số lượng luồng kiểm tra proxy
Check urlhttp://work.a-poster.info:25000/Liên kết đến tập lệnh kiểm tra proxy, hiện tại việc kiểm tra được thực hiện thông qua máy chủ của công cụ cào dữ liệu, trong tương lai hành vi này có thể thay đổi
Check interval30Khoảng thời gian giữa các lần kiểm tra lại toàn bộ tất cả các proxy
Check timeout5Thời gian chờ của proxy
Check max size5120Kích thước tối đa của trang được tải xuống khi kiểm tra proxy
Check anonymousKiểm tra tính ẩn danh của proxy, nếu chọn thì bắt buộc phải chỉ định External IP
External IPĐịa chỉ IP bên ngoài của máy tính\máy chủ, cần chỉ định nếu tùy chọn Check anonymous được bật
Exclude from "All"Theo mặc định, trong mỗi công cụ cào dữ liệu, giá trị "All" được chọn làm trình kiểm tra proxy, nghĩa là tất cả các trình kiểm tra proxy có sẵn đều được sử dụng. Nếu tùy chọn này được bật, trình kiểm tra proxy sẽ bị loại trừ khỏi All.
Save alive proxies to fileNoLưu các proxy sống vào tệp files/proxy/alive.txt
Use proxy authorizationSử dụng xác thực cho proxy theo tên đăng nhập\mật khẩu
Authorization loginTên đăng nhập để xác thực
Authorization passwordMật khẩu để xác thực

Cài đặt tập lệnh kiểm tra trên hosting

ghi chú

Theo mặc định, A-Parser kiểm tra proxy thông qua tập lệnh kiểm tra của riêng mình mà không cần cài đặt tập lệnh trên hosting của bạn

Tải tập lệnh PHP sau lên hosting hoặc máy chủ của bạn và chỉ định liên kết đến nó trong Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>