Proxycheckers
In deze sectie wordt de werkstatistiek van alle proxycheckers weergegeven. Elke proxychecker is een constant draaiende module (indien ingeschakeld) die proxy's controleert en zo een actuele lijst van werkende proxy's bijhoudt.
U kunt een onbeperkt aantal proxycheckers toevoegen en er een of meer selecteren voor elke taak of zelfs elke scraper in een taak. Hierdoor is het mogelijk om binnen één taak bepaalde proxy's te gebruiken voor bijvoorbeeld het scrapen van Google en totaal andere voor Yahoo.

Bovenaan wordt het totale aantal werkende proxy's en het aantal gestarte (werkende) proxycheckers weergegeven. Rechtsboven bevindt zich de knop om een nieuwe proxychecker toe te voegen. Meer informatie over de procedure voor het toevoegen van proxycheckers vindt u in de sectie Proxy-instellingen.
Hieronder vindt u een lijst van alle bestaande proxycheckers in de vorm van kaarten met informatie over elke proxychecker. Op elke kaart wordt de volgende informatie getoond:
- Working path - de map met bestanden van de proxychecker in
aparser/files/proxy - Update time - het tijdstip van de laatste controle van de geladen proxylijst
- Aantal proxy's in de controlewachtrij en het totale aantal geladen proxy's
- Aantal werkende proxy's
- Load state (Downloadstatus) of de datum van de volgende download uit proxybronnen
- Aantal bronnen waaruit de laatste keer succesvol proxy's zijn geladen en het totaal aantal bronnen in deze proxychecker
- De huidige status van de proxycontrole
Met het selectievakje Enabled naast de bedieningsknoppen van de proxycheckers kunt u de proxychecker in- of uitschakelen.
De eerste in de lijst met proxycheckers is altijd de proxychecker default. Dit is een sjabloon voor nieuwe proxycheckers en kan niet worden bewerkt of verwijderd.
Bestandsstructuur
De werkbestanden van de proxychecker bevinden zich in de map files/proxy/<naam van de proxychecker>:
proxy.txt- vanuit dit bestand worden proxy's geladen; hier moet u de lijst met proxy's plaatsensites.txt- in dit bestand moet u de lijst met proxybronnen plaatsen (links naar proxy's, één link per regel)alive.txt- in dit bestand worden elke 5 seconden de werkende proxy's opgeslagen als de bijbehorende optie is ingeschakeldregex.txt- dit bestand bevat een lijst met reguliere expressies voor het scrapen van proxy's uit externe bronnen (één reguliere expressie per regel, $1 moet het IP-adres zijn, $2 de poort)
Als u links naar proxybronnen heeft, geef deze dan op in het bestand sites.txt; het bestand proxy.txt moet leeg worden gelaten
Voor de "default" proxychecker bevinden de bestanden zich in de hoofdmap van de directory files/proxy/
Toevoegen en configureren van een proxychecker
Ga naar het menu "Proxy Checker" en klik op "Add checker" of kies "Edit" in het vervolgkeuzemenu van een bestaande proxychecker. U komt dan op de configuratiepagina van de proxychecker.

Stel indien nodig het gewenste aantal threads in voor het controleren van proxy's (Controle threads), kies het type proxy (Proxy type) en wijzig andere instellingen. De standaardwaarden zijn geschikt voor de meeste taken. Sla de instellingen op als een nieuwe proxychecker. De instellingen van de default proxychecker kunnen niet worden gewijzigd en opgeslagen.
Proxybronnen worden opgegeven in bestanden binnen de map met de naam van de gemaakte proxychecker (files/proxy/.../):
- links in sites.txt
- lijst met proxy's in proxy.txt

Proxy's met IP-toegang
Proxy's met toegang op basis van IP worden op een vergelijkbare manier geconfigureerd.
Lijst met proxy's met dezelfde gebruikersnaam en hetzelfde wachtwoord voor alle proxy's
Deze methode is geschikt voor gevallen waarin de proxylijst het formaat ip:port heeft en de gebruikersnaam/het wachtwoord hetzelfde is voor de gehele lijst met proxy's.
Geef in de instellingen van de checker het volgende op:
- login
- password
- Proxy-autorisatie gebruiken

Lijst met proxy's met verschillende wachtwoorden voor elke proxy
In dit geval moet de proxylijst het formaat login:password@ip:port hebben; in de instellingen van de checker is het voldoende om Use proxy authorization (Proxy-autorisatie gebruiken) aan te vinken.

⏩ Video: proxy met autorisatie verbinden
Een proxychecker kiezen voor een taak
Deze instellingen zijn nodig om het werk van taken met verschillende proxycheckers te scheiden; u kunt dit gedeelte overslaan als u alle beschikbare proxy's in alle taken wilt gebruiken.
Ga naar het menu Settings -> Config Presets, kies de gewenste preset of maak een nieuwe aan (knop Save as New (Nieuwe toevoegen)).
In het veld Proxy Checkers (Proxycheckers) kiest u een of meer proxycheckers (om ze te gebruiken moeten de proxycheckers ingeschakeld zijn) en slaat u dit op (Save (Opslaan)). U kunt ook direct alle proxycheckers selecteren via All (standaardwaarde).

Nu kunt u de gemaakte Thread-configuratie met de opgegeven proxy's in uw taken gebruiken door deze te selecteren in de Taak-editor.

U kunt de proxychecker ook in elke scraper overschrijven met de overschrijvingsfunctie - Proxy Checker.

De optie Exclude from "All" in de proxychecker-instellingen maakt het mogelijk om de proxy's ervan uit te sluiten van het algemene gebruik in A-Parser. Deze optie is nuttig in gevallen waarin u bepaalde proxy's alleen beschikbaar wilt maken voor specifieke taken of alleen voor specifieke scrapers:
- voor een taak moet de uitgesloten proxychecker expliciet worden geselecteerd
- voor een specifieke scraper moet in de instellingen het gebruik van de uitgesloten proxychecker worden ingesteld
Wijzigingen in de logica
Voorheen, als in een taak een specifieke proxychecker was geselecteerd en in de scraper een andere proxychecker was opgegeven, wachtte de scraper op proxy's. Nu hebben de instellingen van de specifieke scraper een hogere prioriteit:
- "All" - gebruikt alle proxy's die voor de taak zijn geselecteerd
- specifieke proxychecker - gebruikt deze, zelfs als deze niet in de taak is geselecteerd
Parameters van proxycheckers
| Parameternaam | Standaardwaarde | Beschrijving |
|---|---|---|
| Loading type | Replace | Bepaalt of eerder geladen proxy's behouden moeten blijven of niet. Add - voegt altijd nieuwe proxy's toe aan de algemene lijst, Replace - vervangt oude proxy's door nieuw geladen proxy's |
| Load threads count | 5 | Aantal threads voor het laden van proxy's van websites |
| Load interval | 30 | Interval tussen volledige hercontroles van de lijst met websites |
| Load timeout | 30 | Time-out voor een verzoek aan een website met proxy's |
| Load max size | 524288 | Maximale grootte van de pagina met proxy's; als de pagina groter is, wordt deze ingekort tot de opgegeven grootte |
| Load limit count | 0 | Beperking van het aantal te laden proxy's, 0 om uit te schakelen |
| No check proxies | ☐ | Maakt het mogelijk om de proxycontrole uit te schakelen. Alle geladen proxy's worden automatisch als werkend beschouwd |
| Proxies type | HTTP, SOCKS5 | Keuze welke type proxy's gecontroleerd moeten worden en in welke volgorde. Als zowel HTTP als SOCKS is opgegeven, wordt bij een mislukte controle op HTTP de proxy opnieuw gecontroleerd op het SOCKS-protocol |
| Check threads | 15 | Aantal threads voor de proxycontrole |
| Check url | http://work.a-poster.info:25000/ | Link naar het script voor proxycontrole. Momenteel wordt de controle uitgevoerd via de server van de scraper; in de toekomst kan dit gedrag veranderen |
| Check interval | 30 | Interval tussen volledige hercontroles van alle proxy's |
| Check timeout | 5 | Proxy time-out |
| Check max size | 5120 | Maximale grootte van de te downloaden pagina tijdens de proxycontrole |
| Check anonymous | ☐ | Proxy's controleren op anonimiteit; indien geselecteerd, moet het External IP verplicht worden opgegeven |
| External IP | Extern IP-adres van de computer\server; moet worden opgegeven als de optie Check anonymous is ingeschakeld | |
| Exclude from "All" | ☐ | Standaard is in elke scraper "All" geselecteerd als proxychecker, wat betekent dat alle beschikbare proxycheckers worden gebruikt. Als deze optie is ingeschakeld, wordt de proxychecker uitgesloten van All. |
| Save alive proxies to file | No | Werkende proxy's opslaan in het bestand files/proxy/alive.txt |
| Use proxy authorization | ☐ | Autorisatie gebruiken voor proxy's via gebruikersnaam\wachtwoord |
| Authorization login | Gebruikersnaam voor autorisatie | |
| Authorization password | Wachtwoord voor autorisatie |
Installatie van het controlescript op hosting
Standaard controleert A-Parser proxy's via zijn eigen controlescript, zonder dat het nodig is om een script op uw eigen hosting te installeren.
Upload het volgende PHP-script naar uw hosting of server en geef de link ernaar op in Check url:
<?php
print_r($_SERVER);
print_r($_POST);
?>