跳转到主要内容

代理检查器

本节显示所有代理检查器的运行统计数据。每个代理检查器都是一个持续运行的模块(如果已启用),它负责检查代理并以此维护最新的存活代理列表。

您可以添加无限数量的代理检查器,并为每个任务甚至任务中的每个爬虫工具选择一个或多个代理检查器。通过这种方式,可以在同一个任务中针对 Google 使用一组代理,而针对 Yandex 使用完全不同的另一组代理。

代理检查器概览

顶部显示存活代理的总数和已启动(运行中)的代理检查器数量。右上角是添加新代理检查器的按钮。有关添加代理检查器流程的更多详细信息,请参阅代理设置章节。

下方以卡片形式列出了所有现有的代理检查器,并包含每个代理检查器的信息。每张卡片显示以下信息:

  • Working path - 代理检查器在 aparser/files/proxy 中的文件文件夹
  • Update time - 上次检查已加载代理列表的时间
  • 检查队列中的代理数量和已加载的代理总数
  • 存活代理数量
  • Load state (加载状态)或从代理源下次加载的日期
  • 上次成功加载代理的源数量以及该代理检查器中的总源数
  • 当前的代理检查状态

代理检查器控制按钮旁的 Enabled 复选框允许您开启/关闭代理检查器。

代理检查器列表中的第一个始终是 default 代理检查器。它是新代理检查器的模板,无法编辑或删除。

文件结构

代理检查器的工作文件位于 files/proxy/<代理检查器名称> 文件夹中:

  • proxy.txt - 从此文件加载代理,需要将代理列表放入其中
  • sites.txt - 需要将代理源列表放入此文件(代理链接,每行一个链接)
  • alive.txt - 如果启用了相应选项,存活代理每 5 秒保存到此文件一次
  • regex.txt - 此文件包含用于从外部源抓取代理的正则表达式列表(每行一个正则表达式,IP 地址应在 $1 中,端口应在 $2 中)
备注

如果您有代理源链接 - 请在 sites.txt 文件中指明,proxy.txt 文件应保持为空
对于 "default" 代理检查器,文件位于 files/proxy/ 目录根部

添加和设置代理检查器

进入“Proxy Checker”菜单并点击“Add checker”,或在现有代理检查器的下拉菜单中选择“Edit”。随后进入代理检查器设置页面。

添加代理检查器

根据需要设置用于检查代理的线程数(检查线程),选择代理类型(代理类型)并更改其他设置。默认参数值适用于大多数任务。将设置保存为新的代理检查器。无法修改并保存 default 代理检查器的设置。

代理源在所创建代理检查器名称文件夹内的文件中指定 (files/proxy/.../):

  • sites.txt 中的链接
  • proxy.txt 中的代理列表
工作目录中的代理源

IP 授权代理

具有 IP 访问权限的代理以类似方式进行配置。

所有代理使用相同登录名和密码的代理列表

此方法适用于代理列表格式为 ip:port 且整个代理列表的登录名/密码相同的情况

在检查器设置中指定:

  • login
  • password
  • 使用代理授权
设置:所有代理使用相同登录名和密码的代理列表

每个代理使用不同密码的代理列表

在这种情况下,代理列表的格式应为 login:password@ip:port,在检查器设置中只需勾选Use proxy authorization (使用代理授权)即可

设置:每个代理使用不同密码的代理列表

⏩ 视频:连接带授权的代理

为任务选择代理检查器

备注

这些设置对于区分不同任务使用不同代理检查器是必要的,如果需要在所有任务中使用所有可用代理,可以跳过此部分

进入 Settings -> Config Presets 菜单,选择所需的预设或创建新预设(点击 Save as New (添加新预设) 按钮)。

Proxy Checkers (代理检查器) 字段中选择一个或多个代理检查器(代理检查器必须处于启用状态才能使用)并保存(Save (保存))。也可以直接选择所有代理检查器 All(默认值)。

为任务选择代理检查器

现在可以在自己的任务中使用已创建的、带有指定代理的线程配置,只需在任务编辑器中选择它即可。

选择线程配置

还可以使用重写功能在每个爬虫工具中覆盖代理检查器 - Proxy Checker

重写代理检查器

代理检查器设置中的 Exclude from "All" 选项允许将其代理从 A-Parser 的通用池中排除。当需要使某些代理仅对特定任务或特定爬虫工具可用时,此选项非常有用:

  • 必须为任务强制选择被排除的代理检查器
  • 必须在特定爬虫工具的设置中指定使用被排除的代理检查器

逻辑变更

以前,如果任务中选择了特定的代理检查器,而爬虫工具中指定了另一个代理检查器,爬虫工具会等待代理。现在,特定爬虫工具的设置具有更高优先级:

  • "All" - 使用为任务选择的所有代理
  • 特定代理检查器 - 使用该检查器,即使它未在任务中被选中

代理检查器参数

参数名称默认值描述
Loading typeReplace决定是否保留之前加载的代理,Add - 始终将新代理添加到总列表,Replace - 用新加载的代理替换旧代理
Load threads count5从网站加载代理的线程数
Load interval30完整重新检查网站列表的时间间隔
Load timeout30请求代理网站的超时时间
Load max size524288代理页面的最大大小,如果页面超过此大小,则将其截断至指定大小
Load limit count0限制加载的代理数量,0 为不限制
No check proxies允许禁用代理检查。所有加载的代理将自动被视为存活
Proxies typeHTTP, SOCKS5选择要检查的代理类型及其顺序,如果同时指定了 HTTP 和 SOCKS,则在 HTTP 检查失败时将重新检查 SOCKS 协议
Check threads15检查代理的线程数
Check urlhttp://work.a-poster.info:25000/代理检查脚本的链接,目前通过爬虫工具服务器进行检查,未来此行为可能会改变
Check interval30完整重新检查所有代理的时间间隔
Check timeout5代理超时时间
Check max size5120检查代理时下载页面的最大大小
Check anonymous检查代理的匿名性,如果选中,则必须指定 External IP
External IP计算机\服务器的外部 IP 地址,如果启用了 Check anonymous 选项则必须填写
Exclude from "All"默认情况下,每个爬虫工具中的代理检查器都选为 "All",即使用所有可用的代理检查器。如果启用此选项,该代理检查器将从 All 中排除。
Save alive proxies to fileNo将存活代理保存到文件 files/proxy/alive.txt
Use proxy authorization对代理使用登录名\密码授权
Authorization login授权登录名
Authorization password授权密码

在主机上安装检查脚本

备注

默认情况下,A-Parser 通过其自身的检查脚本检查代理,无需在您的主机上安装脚本

将以下 PHP 脚本上传到您的主机或服务器,并在 Check url 中指定其链接:

<?php

print_r($_SERVER);
print_r($_POST);

?>