Zum Hauptinhalt springen

Proxy-Checker

Dieser Abschnitt zeigt die Statistiken aller Proxychecker an. Jeder Proxychecker ist ein ständig laufendes Modul (sofern aktiviert), das Proxys überprüft und somit eine aktuelle Liste aktiver Proxys bereitstellt.

Sie können eine unbegrenzte Anzahl von Proxycheckern hinzufügen und einen oder mehrere davon für jede Aufgabe oder sogar für jeden Parser innerhalb einer Aufgabe auswählen. Auf diese Weise ist es möglich, innerhalb einer Aufgabe bestimmte Proxys beispielsweise für das Scraping von Google und ganz andere für Yandex zu verwenden.

Übersicht Proxychecker

Oben wird die Gesamtzahl der aktiven Proxys und die Anzahl der gestarteten (laufenden) Proxychecker angezeigt. Oben rechts befindet sich die Schaltfläche zum Hinzufügen eines neuen Proxycheckers. Weitere Informationen zum Hinzufügen von Proxycheckern finden Sie im Abschnitt Proxy-Einstellungen.

Darunter befindet sich eine Liste aller vorhandenen Proxychecker in Form von Karten mit Informationen zu jedem Proxychecker. Auf jeder Karte werden folgende Informationen angezeigt:

  • Working path - der Ordner mit den Dateien des Proxycheckers in aparser/files/proxy
  • Update time - der Zeitpunkt der letzten Überprüfung der geladenen Proxyliste
  • Anzahl der Proxys in der Prüfwarteschlange und die Gesamtzahl der geladenen Proxys
  • Anzahl der aktiven Proxys
  • Load state (Download-Status) oder das Datum des nächsten Downloads aus den Proxy-Quellen
  • Anzahl der Quellen, aus denen zuletzt erfolgreich Proxys geladen wurden, sowie die Gesamtzahl der Quellen in diesem Proxychecker
  • Aktueller Status der Proxy-Prüfung

Das Kontrollkästchen Enabled neben den Steuerungsschaltflächen ermöglicht das Ein- und Ausschalten des Proxycheckers.

Der erste in der Liste der Proxychecker ist immer der Proxychecker default. Er dient als Vorlage für neue Proxychecker und kann weder bearbeitet noch gelöscht werden.

Dateistruktur

Die Arbeitsdateien des Proxycheckers befinden sich im Ordner files/proxy/<Name des Proxycheckers>:

  • proxy.txt - aus dieser Datei werden Proxys geladen; hier sollte die Liste der Proxys abgelegt werden
  • sites.txt - in diese Datei sollte die Liste der Proxy-Quellen eingetragen werden (Links zu Proxys, ein Link pro Zeile)
  • alive.txt - in dieser Datei werden alle 5 Sekunden die aktiven Proxys gespeichert, sofern die entsprechende Option aktiviert ist
  • regex.txt - diese Datei enthält eine Liste regulärer Ausdrücke zum Extrahieren von Proxys aus externen Quellen (ein regulärer Ausdruck pro Zeile, in $1 muss die IP-Adresse und in $2 der Port stehen)
Hinweis

Wenn Sie Links zu Proxy-Quellen haben, geben Sie diese in der Datei sites.txt an; die Datei proxy.txt sollte leer gelassen werden
Für den "default" Proxychecker befinden sich die Dateien im Stammverzeichnis des Ordners files/proxy/

Hinzufügen und Konfigurieren eines Proxycheckers

Gehen Sie in das Menü "Proxychecker" und klicken Sie auf "Checker hinzufügen" oder wählen Sie bei einem bestehenden Proxychecker im Dropdown-Menü "Bearbeiten". Sie gelangen auf die Konfigurationsseite des Proxycheckers.

Proxychecker hinzufügen

Stellen Sie bei Bedarf die erforderliche Anzahl an Threads für die Proxy-Prüfung (Prüf-Threads) ein, wählen Sie den Proxy-Typ (Proxy-Typ) und ändern Sie weitere Einstellungen. Die Standardwerte sind für die meisten Aufgaben geeignet. Speichern Sie die Einstellungen als neuen Proxychecker. Die Einstellungen des default Proxycheckers können nicht geändert und gespeichert werden.

Proxy-Quellen werden in Dateien innerhalb des Ordners mit dem Namen des erstellten Proxycheckers (files/proxy/.../) angegeben:

  • Links in sites.txt
  • Liste der Proxys in proxy.txt
Proxy-Quellen im Arbeitsverzeichnis

Proxys mit IP-Zugriff

Proxys mit Zugriff über IP werden auf ähnliche Weise konfiguriert.

Proxyliste mit identischem Login/Passwort für alle Proxys

Diese Methode eignet sich für Fälle, in denen die Proxyliste das Format ip:port hat und Login/Passwort für die gesamte Liste identisch sind.

Geben Sie in den Checker-Einstellungen Folgendes an:

  • login
  • password
  • Proxy-Autorisierung verwenden
Einstellung: Proxyliste mit identischem Login/Passwort für alle Proxys

Proxyliste mit unterschiedlichen Passwörtern für jeden Proxy

In diesem Fall muss die Proxyliste das Format login:password@ip:port haben. In den Checker-Einstellungen reicht es aus, Use proxy authorization (Proxy-Autorisierung verwenden) zu aktivieren.

Einstellung: Proxyliste mit unterschiedlichen Passwörtern für jeden Proxy

⏩ Video: Verbindung von Proxys mit Autorisierung

Auswahl des Proxycheckers für eine Aufgabe

Hinweis

Diese Einstellungen sind notwendig, um die Arbeit von Aufgaben mit verschiedenen Proxycheckern zu trennen. Sie können diesen Abschnitt überspringen, wenn alle verfügbaren Proxys in allen Aufgaben verwendet werden sollen.

Gehen Sie in das Menü Settings -> Threads settings, wählen Sie das gewünschte Preset aus oder erstellen Sie ein neues (Schaltfläche Add new (Neu hinzufügen)).

Wählen Sie im Feld Proxy Checkers (Proxychecker) einen oder mehrere Proxychecker aus (um sie zu verwenden, müssen die Proxychecker aktiviert sein) und speichern Sie (Save (Speichern)). Sie können auch sofort alle Proxychecker über All auswählen (Standardwert).

Auswahl des Proxycheckers für eine Aufgabe

Nun können Sie die erstellte Thread-Konfiguration mit den festgelegten Proxys in Ihren Aufgaben verwenden, indem Sie diese im Task-Editor auswählen.

Auswahl der Thread-Konfiguration

Zudem kann der Proxychecker in jedem Parser mithilfe der Überschreibungsfunktion - Proxy Checker - individuell festgelegt werden.

Überschreiben des Proxycheckers

Die Option Exclude from "All" in den Proxychecker-Einstellungen ermöglicht es, dessen Proxys aus der allgemeinen Verwendung in A-Parser auszuschließen. Diese Option ist nützlich, wenn bestimmte Proxys nur für spezifische Aufgaben oder nur für bestimmte Parser verfügbar gemacht werden sollen:

  • Für die Aufgabe muss der ausgeschlossene Proxychecker explizit ausgewählt werden.
  • Für einen bestimmten Parser muss in den Einstellungen die Verwendung des ausgeschlossenen Proxycheckers festgelegt werden.

Änderungen in der Logik

Bisher wartete ein Parser auf Proxys, wenn in der Aufgabe ein bestimmter Proxychecker ausgewählt war, im Parser jedoch ein anderer angegeben wurde. Nun haben die Einstellungen des spezifischen Parsers eine höhere Priorität:

  • "All" - verwendet alle für die Aufgabe ausgewählten Proxys.
  • Ein spezifischer Proxychecker - verwendet diesen, selbst wenn er in der Aufgabe nicht ausgewählt wurde.

Parameter der Proxychecker

Name des ParametersStandardwertBeschreibung
Loading typeReplaceBestimmt, ob zuvor geladene Proxys beibehalten werden oder nicht. Add - fügt neue Proxys immer der Gesamtliste hinzu, Replace - ersetzt alte Proxys durch neu geladene.
Load threads count5Anzahl der Threads zum Laden von Proxys von Webseiten.
Load interval30Intervall zwischen der vollständigen Neuüberprüfung der Liste der Webseiten.
Load timeout30Timeout für die Anfrage an eine Webseite mit Proxys.
Load max size524288Maximale Größe der Seite mit Proxys; wenn die Seite größer ist, wird sie auf die angegebene Größe gekürzt.
Load limit count0Begrenzung der Anzahl der zu ladenden Proxys, 0 zum Deaktivieren.
No check proxiesErmöglicht das Deaktivieren der Proxy-Prüfung. Alle geladenen Proxys gelten automatisch als aktiv.
Proxies typeHTTP, SOCKS5Auswahl, welche Proxy-Typen in welcher Reihenfolge geprüft werden sollen. Wenn gleichzeitig HTTP und SOCKS angegeben sind, wird bei einer fehlgeschlagenen HTTP-Prüfung erneut auf das SOCKS-Protokoll geprüft.
Check threads15Anzahl der Threads zur Proxy-Prüfung.
Check urlhttp://work.a-poster.info:25000/Link zum Proxy-Prüfskript. Derzeit erfolgt die Prüfung über den Server des Parsers; dieses Verhalten kann sich in Zukunft ändern.
Check interval30Intervall zwischen vollständigen Neuüberprüfungen aller Proxys.
Check timeout5Proxy-Timeout.
Check max size5120Maximale Größe der heruntergeladenen Seite bei der Proxy-Prüfung.
Check anonymousProxys auf Anonymität prüfen; falls ausgewählt, muss zwingend die External IP angegeben werden.
External IPExterne IP-Adresse des Computers\Servers; muss angegeben werden, wenn die Option Check anonymous aktiviert ist.
Exclude from "All"Standardmäßig ist in jedem Parser als Proxychecker "All" ausgewählt, d.h. es werden alle verfügbaren Proxychecker verwendet. Wenn diese Option aktiviert ist, wird der Proxychecker aus "All" ausgeschlossen.
Save alive proxies to fileNoAktive Proxys in der Datei files/proxy/alive.txt speichern.
Use proxy authorizationAutorisierung für Proxys über Login\Passwort verwenden.
Authorization loginLogin für die Autorisierung.
Authorization passwordPasswort für die Autorisierung.

Installation des Prüfskripts auf einem Hosting

Hinweis

Standardmäßig prüft A-Parser Proxys über sein eigenes Prüfskript, ohne dass ein Skript auf dem eigenen Hosting installiert werden muss.

Laden Sie das folgende PHP-Skript auf Ihr Hosting oder Ihren Server hoch und geben Sie den Link dazu in Check url an:

<?php

print_r($_SERVER);
print_r($_POST);

?>