メインコンテンツへスキップ

プロキシチェッカー

このセクションでは、すべてのプロキシチェッカーの動作統計が表示されます。各プロキシチェッカーは、(有効な場合)常に動作するモジュールであり、プロキシをチェックして最新の生存プロキシリストを維持します。

プロキシチェッカーは無制限に追加でき、各タスクまたはタスク内の各スクレイパーに対して1つまたは複数を選択できます。これにより、1つのタスク内で、例えばGoogleのスクレイピングには特定のプロキシを使用し、Yandexには全く別のプロキシを使用するといったことが可能になります。

プロキシチェッカーの概要

上部には生存プロキシの総数と起動中(動作中)のプロキシチェッカーの数が表示されます。右上には新しいプロキシチェッカーを追加するためのボタンがあります。プロキシチェッカーの追加手順の詳細については、プロキシの設定セクションで説明されています。

下部には、既存のすべてのプロキシチェッカーが各情報のカード形式でリスト表示されます。各カードには以下の情報が表示されます:

  • Working path - aparser/files/proxy 内のプロキシチェッカーのファイル構造フォルダ
  • Update time - ロードされたプロキシリストの最終チェック時刻
  • チェック待ちキューのプロキシ数 および ロード済みプロキシの総数
  • 生存プロキシ数
  • Load state (ロードステータス) または プロキシソースからの次回ロード日時
  • 最後に正常にプロキシをロードしたソース数 および このプロキシチェッカー内の総ソース数
  • 現在のプロキシチェックステータス

プロキシチェッカー操作ボタンの横にある Enabled チェックボックスで、プロキシチェッカーのオン/オフを切り替えることができます。

プロキシチェッカーリストの最初には常に default チェッカーが表示されます。これは新しいプロキシチェッカーのテンプレートであり、編集や削除はできません。

ファイル構造

プロキシチェッカーの作業ファイルは files/proxy/<プロキシチェッカー名> フォルダにあります:

  • proxy.txt - このファイルからプロキシがロードされます。ここにプロキシリストを配置してください。
  • sites.txt - このファイルにプロキシソースのリスト(プロキシへのリンク、1行に1リンクの形式)を配置してください。
  • alive.txt - 対応するオプションが有効な場合、5秒ごとに生存プロキシがこのファイルに保存されます。
  • regex.txt - 外部ソースからプロキシをスクレイピングするための正規表現リスト(1行に1つの正規表現、 $1 にIPアドレス、 $2 にポートがくる形式)が含まれます。
注記

プロキシソースへのリンクがある場合は、sites.txt ファイルに指定し、proxy.txt ファイルは空のままにしてください
"default" プロキシチェッカーの場合、ファイルは files/proxy/ ディレクトリのルートにあります。

プロキシチェッカーの追加と設定

「Proxy Checker」メニューに入り、「Add checker」をクリックするか、既存のプロキシチェッカーのドロップダウンメニューから「Edit」を選択します。プロキシチェッカーの設定ページに移動します。

プロキシチェッカーの追加

必要に応じて、プロキシチェック用のスレッド数(チェックスレッド)、プロキシタイプ(プロキシタイプ)を設定し、その他の設定を変更します。デフォルトのパラメータ値は、ほとんどのタスクに適しています。設定を新しいプロキシチェッカーとして保存します。default プロキシチェッカーの設定を変更して保存することはできません。

プロキシソースは、作成されたプロキシチェッカー名のフォルダ(files/proxy/.../)内のファイルで指定します:

  • sites.txt 内のリンク
  • proxy.txt 内のプロキシリスト
作業ディレクトリ内のプロキシソース

IP認証プロキシ

IPによるアクセス制限があるプロキシは、同様の方法で設定されます。

すべてのプロキシで共通のログイン・パスワードを使用するプロキシリスト

この方法は、プロキシリストが ip:port 形式で、すべてのプロキシに対してログイン/パスワードが共通である場合に適しています。

チェッカーの設定で以下を指定します:

  • login
  • password
  • プロキシ認証を使用する
設定:すべてのプロキシで共通のログイン・パスワードを使用するプロキシリスト

プロキシごとに異なるパスワードを使用するプロキシリスト

この場合、プロキシリストは login:password@ip:port 形式である必要があります。チェッカーの設定では Use proxy authorization (プロキシ認証を使用する) を指定するだけで十分です。

設定:プロキシごとに異なるパスワードを使用するプロキシリスト

⏩ 動画: 認証付きプロキシの接続

タスクのプロキシチェッカー選択

注記

これらの設定は、異なるプロキシチェッカーを使用するタスクの動作を区別するために必要です。すべてのタスクですべての利用可能なプロキシを使用する場合は、このセクションをスキップできます。

Settings -> Config Presets メニューに移動し、必要なプリセットを選択するか、新しく作成します(Save as New (新規追加) ボタン)。

Proxy Checkers (プロキシチェッカー) フィールドで、1つまたは複数のプロキシチェッカーを選択し(使用するにはプロキシチェッカーが有効である必要があります)、保存(Save (保存))します。また、デフォルト値である All を選択して、すべてのプロキシチェッカーを一度に選択することもできます。

タスクのプロキシチェッカー選択

これで、タスクエディタで作成したスレッド設定を選択することで、指定したプロキシを使用してタスクを実行できるようになります。

スレッド設定の選択

また、設定の上書き機能を使用して、各スクレイパーでプロキシチェッカーを個別に指定することも可能です(Proxy Checker オプション)。

プロキシチェッカーの上書き

プロキシチェッカー設定Exclude from "All" オプションを使用すると、そのプロキシを A-Parser の一般的な利用から除外できます。このオプションは、特定のプロキシを特定のタスクまたは特定のスクレイパーからのみ利用可能にしたい場合に便利です:

  • タスクに対して、除外されたプロキシチェッカーを強制的に選択する
  • 特定のスクレイパーの設定で、除外されたプロキシチェッカーの使用を設定する

ロジックの変更

以前は、タスクで特定のプロキシチェッカーが選択され、スクレイパーで別のプロキシチェッカーが指定されていた場合、スクレイパーはプロキシを待機していました。現在は、特定のスクレイパーの設定がより優先されます:

  • "All" - タスクに選択されたすべてのプロキシを使用します
  • 特定のプロキシチェッカー - タスクで選択されていなくても、そのチェッカーを使用します

プロキシチェッカーのパラメータ

パラメータ名デフォルト値説明
Loading typeReplace以前にロードされたプロキシを保持するかどうかを決定します。Add は常に新しいプロキシを一般リストに追加し、Replace は古いプロキシを新しくロードされたものに置き換えます。
Load threads count5サイトからプロキシをロードするスレッド数
Load interval30サイトリストの完全な再チェックの間隔
Load timeout30プロキシサイトへのリクエストのタイムアウト
Load max size524288プロキシページの最大サイズ。ページがこれより大きい場合は、指定されたサイズに切り詰められます。
Load limit count0ロードするプロキシ数の制限。0 で無効化。
No check proxiesプロキシチェックを無効にできます。ロードされたすべてのプロキシは自動的に生存しているとみなされます。
Proxies typeHTTP, SOCKS5チェックするプロキシのタイプと順序を選択します。HTTP と SOCKS が同時に指定されている場合、HTTP でのチェックに失敗すると、SOCKS プロトコルで再チェックされます。
Check threads15プロキシチェックのスレッド数
Check urlhttp://work.a-poster.info:25000/プロキシチェックスクリプトへのリンク。現在、チェックはスクレイパーのサーバーを介して行われますが、将来的にこの動作は変更される可能性があります。
Check interval30すべてのプロキシの完全な再チェックの間隔
Check timeout5プロキシのタイムアウト
Check max size5120プロキシチェック時の最大ダウンロードページサイズ
Check anonymousプロキシの匿名性をチェックします。選択した場合は、External IP を必ず指定する必要があります。
External IPコンピュータ/サーバーの外部IPアドレス。Check anonymous オプションが有効な場合に指定する必要があります。
Exclude from "All"デフォルトでは、各スクレイパーのプロキシチェッカーとして "All" が選択されており、利用可能なすべてのプロキシチェッカーが使用されます。このオプションを有効にすると、そのプロキシチェッカーは All から除外されます。
Save alive proxies to fileNo生存プロキシを files/proxy/alive.txt ファイルに保存する
Use proxy authorizationログイン/パスワードによるプロキシ認証を使用する
Authorization login認証用ログイン
Authorization password認証用パスワード

ホスティングへのチェックスクリプトのインストール

注記

デフォルトでは、A-Parser は独自のチェックスクリプトを使用してプロキシをチェックするため、自身のホスティングにスクリプトをインストールする必要はありません。

ホスティングまたはサーバーに次の PHP スクリプトをアップロードし、Check url にそのリンクを指定してください:

<?php

print_r($_SERVER);
print_r($_POST);

?>