プロキシチェッカー
このセクションでは、すべてのプロキシチェッカーの動作統計が表示されます。各プロキシチェッカーは、(有効な場合)常に動作するモジュールであり、プロキシをチェックして最新の生存プロキシリストを維持します。
プロキシチェッカーは無制限に追加でき、各タスクまたはタスク内の各スクレイパーに対して1つまたは複数を選択できます。これにより、1つのタスク内で、例えばGoogleのスクレイピングには特定のプロキシを使用し、Yandexには全く別のプロキシを使用するといったことが可能になります。

上部には生存プロキシの総数と起動中(動作中)のプロキシチェッカーの数が表示されます。右上には新しいプロキシチェッカーを追加するためのボタンがあります。プロキシチェッカーの追加手順の詳細については、プロキシの設定セクションで説明されています。
下部には、既存のすべてのプロキシチェッカーが各情報のカード形式でリスト表示されます。各カードには以下の情報が表示されます:
- Working path -
aparser/files/proxy内のプロキシチェッカーのファイル構造フォルダ - Update time - ロードされたプロキシリストの最終チェック時刻
- チェック待ちキューのプロキシ数 および ロード済みプロキシの総数
- 生存プロキシ数
- Load state (ロードステータス) または プロキシソースからの次回ロード日時
- 最後に正常にプロキシをロードしたソース数 および このプロキシチェッカー内の総ソース数
- 現在のプロキシチェックステータス
プロキシチェッカー操作ボタンの横にある Enabled チェックボックスで、プロキシチェッカーのオン/オフを切り替えることができます。
プロキシチェッカーリストの最初には常に default チェッカーが表示されます。これは新しいプロキシチェッカーのテンプレートであり、編集や削除はできません。
ファイル構造
プロキシチェッカーの作業ファイルは files/proxy/<プロキシチェッカー名> フォルダにあります:
proxy.txt- このファイルからプロキシがロードされます。ここにプロキシリストを配置してください。sites.txt- このファイルにプロキシソースのリスト(プロキシへのリンク、1行に1リンクの形式)を配置してください。alive.txt- 対応するオプションが有効な場合、5秒ごとに生存プロキシがこのファイルに保存されます。regex.txt- 外部ソースからプロキシをスクレイピングするための正規表現リスト(1行に1つの正規表現、 $1 にIPアドレス、 $2 にポートがくる形式)が含まれます。
プロキシソースへのリンクがある場合は、sites.txt ファイルに指定し、proxy.txt ファイルは空のままにしてください
"default" プロキシチェッカーの場合、ファイルは files/proxy/ ディレクトリのルートにあります。
プロキシチェッカーの追加と設定
「Proxy Checker」メニューに入り、「Add checker」をクリックするか、既存のプロキシチェッカーのドロップダウンメニューから「Edit」を選択します。プロキシチェッカーの設定ページに移動します。

必要に応じて、プロキシチェック用のスレッド数(チェックスレッド)、プロキシタイプ(プロキシタイプ)を設定し、その他の設定を変更します。デフォルトのパラメータ値は、ほとんどのタスクに適しています。設定を新しいプロキシチェッカーとして保存します。default プロキシチェッカーの設定を変更して保存することはできません。
プロキシソースは、作成されたプロキシチェッカー名のフォルダ(files/proxy/.../)内のファイルで指定します:
- sites.txt 内のリンク
- proxy.txt 内のプロキシリスト

IP認証プロキシ
IPによるアクセス制限があるプロキシは、同様の方法で設定されます。
すべてのプロキシで共通のログイン・パスワードを使用するプロキシリスト
この方法は、プロキシリストが ip:port 形式で、すべてのプロキシに対してログイン/パスワードが共通である場合に適しています。
チェッカーの設定で以下を指定します:
- login
- password
- プロキシ認証を使用する

プロキシごとに異なるパスワードを使用するプロキシリスト
この場合、プロキシリストは login:password@ip:port 形式である必要があります。チェッカーの設定では Use proxy authorization (プロキシ認証を使用する) を指定するだけで十分です。

⏩ 動画: 認証付きプロキシの接続
タスクのプロキシチェッカー選択
これらの設定は、異なるプロキシチェッカーを使用するタスクの動作を区別するために必要です。すべてのタスクですべての利用可能なプロキシを使用する場合は、このセクションをスキップできます。
Settings -> Config Presets メニューに移動し、必要なプリセットを選択するか、新しく作成します(Save as New (新規追加) ボタン)。
Proxy Checkers (プロキシチェッカー) フィールドで、1つまたは複数のプロキシチェッカーを選択し(使用するにはプロキシチェッカーが有効である必要があります)、保存(Save (保存))します。また、デフォルト値である All を選択して、すべてのプロキシチェッカーを一度に選択することもできます。

これで、タスクエディタで作成したスレッド設定を選択することで、指定したプロキシを使用してタスクを実行できるようになります。

また、設定の上書き機能を使用して、各スクレイパーでプロキシチェッカーを個別に指定することも可能です(Proxy Checker オプション)。

プロキシチェッカー設定の Exclude from "All" オプションを使用すると、そのプロキシを A-Parser の一般的な利用から除外できます。このオプションは、特定のプロキシを特定のタスクまたは特定のスクレイパーからのみ利用可能にしたい場合に便利です:
- タスクに対して、除外されたプロキシチェッカーを強制的に選択する
- 特定のスクレイパーの設定で、除外されたプロキシチェッカーの使用を設定する
ロジックの変更
以前は、タスクで特定のプロキシチェッカーが選択され、スクレイパーで別のプロキシチェッカーが指定されていた場合、スクレイパーはプロキシを待機していました。現在は、特定のスクレイパーの設定がより優先されます:
- "All" - タスクに選択されたすべてのプロキシを使用します
- 特定のプロキシチェッカー - タスクで選択されていなくても、そのチェッカーを使用します
プロキシチェッカーのパラメータ
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Loading type | Replace | 以前にロードされたプロキシを保持するかどうかを決定します。Add は常に新しいプロキシを一般リストに追加し、Replace は古いプロキシを新しくロードされたものに置き換えます。 |
| Load threads count | 5 | サイトからプロキシをロードするスレッド数 |
| Load interval | 30 | サイトリストの完全な再チェックの間隔 |
| Load timeout | 30 | プロキシサイトへのリクエストのタイムアウト |
| Load max size | 524288 | プロキシページの最大サイズ。ページがこれより大きい場合は、指定されたサイズに切り詰められます。 |
| Load limit count | 0 | ロードするプロキシ数の制限。0 で無効化。 |
| No check proxies | ☐ | プロキシチェックを無効にできます。ロードされたすべてのプロキシは自動的に生存しているとみなされます。 |
| Proxies type | HTTP, SOCKS5 | チェックするプロキシのタイプと順序を選択します。HTTP と SOCKS が同時に指定されている場合、HTTP でのチェックに失敗すると、SOCKS プロトコルで再チェックされます。 |
| Check threads | 15 | プロキシチェックのスレッド数 |
| Check url | http://work.a-poster.info:25000/ | プロキシチェックスクリプトへのリンク。現在、チェックはスクレイパーのサーバーを介して行われますが、将来的にこの動作は変更される可能性があります。 |
| Check interval | 30 | すべてのプロキシの完全な再チェックの間隔 |
| Check timeout | 5 | プロキシのタイムアウト |
| Check max size | 5120 | プロキシチェック時の最大ダウンロードページサイズ |
| Check anonymous | ☐ | プロキシの匿名性をチェックします。選択した場合は、External IP を必ず指定する必要があります。 |
| External IP | コンピュータ/サーバーの外部IPアドレス。Check anonymous オプションが有効な場合に指定する必要があります。 | |
| Exclude from "All" | ☐ | デフォルトでは、各スクレイパーのプロキシチェッカーとして "All" が選択されており、利用可能なすべてのプロキシチェッカーが使用されます。このオプションを有効にすると、そのプロキシチェッカーは All から除外されます。 |
| Save alive proxies to file | No | 生存プロキシを files/proxy/alive.txt ファイルに保存する |
| Use proxy authorization | ☐ | ログイン/パスワードによるプロキシ認証を使用する |
| Authorization login | 認証用ログイン | |
| Authorization password | 認証用パスワード |
ホスティングへのチェックスクリプトのインストール
デフォルトでは、A-Parser は独自のチェックスクリプトを使用してプロキシをチェックするため、自身のホスティングにスクリプトをインストールする必要はありません。
ホスティングまたはサーバーに次の PHP スクリプトをアップロードし、Check url にそのリンクを指定してください:
<?php
print_r($_SERVER);
print_r($_POST);
?>