Ga naar de hoofdinhoud

Proxycheckers

In deze sectie wordt de werkstatistiek van alle proxycheckers weergegeven. Elke proxychecker is een constant draaiende module (indien ingeschakeld) die proxy's controleert en zo een actuele lijst van werkende proxy's bijhoudt.

U kunt een onbeperkt aantal proxycheckers toevoegen en er een of meer selecteren voor elke taak of zelfs elke scraper in een taak. Hierdoor is het mogelijk om binnen één taak bepaalde proxy's te gebruiken voor bijvoorbeeld het scrapen van Google en totaal andere voor Yahoo.

Overzicht Proxychecker

Bovenaan wordt het totale aantal werkende proxy's en het aantal gestarte (werkende) proxycheckers weergegeven. Rechtsboven bevindt zich de knop om een nieuwe proxychecker toe te voegen. Meer informatie over de procedure voor het toevoegen van proxycheckers vindt u in de sectie Proxy-instellingen.

Hieronder vindt u een lijst van alle bestaande proxycheckers in de vorm van kaarten met informatie over elke proxychecker. Op elke kaart wordt de volgende informatie getoond:

  • Working path - de map met bestanden van de proxychecker in aparser/files/proxy
  • Update time - het tijdstip van de laatste controle van de geladen proxylijst
  • Aantal proxy's in de controlewachtrij en het totale aantal geladen proxy's
  • Aantal werkende proxy's
  • Load state (Downloadstatus) of de datum van de volgende download uit proxybronnen
  • Aantal bronnen waaruit de laatste keer succesvol proxy's zijn geladen en het totaal aantal bronnen in deze proxychecker
  • De huidige status van de proxycontrole

Met het selectievakje Enabled naast de bedieningsknoppen van de proxycheckers kunt u de proxychecker in- of uitschakelen.

De eerste in de lijst met proxycheckers is altijd de proxychecker default. Dit is een sjabloon voor nieuwe proxycheckers en kan niet worden bewerkt of verwijderd.

Bestandsstructuur

De werkbestanden van de proxychecker bevinden zich in de map files/proxy/<naam van de proxychecker>:

  • proxy.txt - vanuit dit bestand worden proxy's geladen; hier moet u de lijst met proxy's plaatsen
  • sites.txt - in dit bestand moet u de lijst met proxybronnen plaatsen (links naar proxy's, één link per regel)
  • alive.txt - in dit bestand worden elke 5 seconden de werkende proxy's opgeslagen als de bijbehorende optie is ingeschakeld
  • regex.txt - dit bestand bevat een lijst met reguliere expressies voor het scrapen van proxy's uit externe bronnen (één reguliere expressie per regel, $1 moet het IP-adres zijn, $2 de poort)
opmerking

Als u links naar proxybronnen heeft, geef deze dan op in het bestand sites.txt; het bestand proxy.txt moet leeg worden gelaten
Voor de "default" proxychecker bevinden de bestanden zich in de hoofdmap van de directory files/proxy/

Toevoegen en configureren van een proxychecker

Ga naar het menu "Proxy Checker" en klik op "Add checker" of kies "Edit" in het vervolgkeuzemenu van een bestaande proxychecker. U komt dan op de configuratiepagina van de proxychecker.

Proxychecker toevoegen

Stel indien nodig het gewenste aantal threads in voor het controleren van proxy's (Controle threads), kies het type proxy (Proxy type) en wijzig andere instellingen. De standaardwaarden zijn geschikt voor de meeste taken. Sla de instellingen op als een nieuwe proxychecker. De instellingen van de default proxychecker kunnen niet worden gewijzigd en opgeslagen.

Proxybronnen worden opgegeven in bestanden binnen de map met de naam van de gemaakte proxychecker (files/proxy/.../):

  • links in sites.txt
  • lijst met proxy's in proxy.txt
Proxybronnen in de werkmap

Proxy's met IP-toegang

Proxy's met toegang op basis van IP worden op een vergelijkbare manier geconfigureerd.

Lijst met proxy's met dezelfde gebruikersnaam en hetzelfde wachtwoord voor alle proxy's

Deze methode is geschikt voor gevallen waarin de proxylijst het formaat ip:port heeft en de gebruikersnaam/het wachtwoord hetzelfde is voor de gehele lijst met proxy's.

Geef in de instellingen van de checker het volgende op:

  • login
  • password
  • Proxy-autorisatie gebruiken
Instelling: lijst met proxy's met dezelfde gebruikersnaam en hetzelfde wachtwoord voor alle proxy's

Lijst met proxy's met verschillende wachtwoorden voor elke proxy

In dit geval moet de proxylijst het formaat login:password@ip:port hebben; in de instellingen van de checker is het voldoende om Use proxy authorization (Proxy-autorisatie gebruiken) aan te vinken.

Instelling: lijst met proxy's met verschillende wachtwoorden voor elke proxy

⏩ Video: proxy met autorisatie verbinden

Een proxychecker kiezen voor een taak

opmerking

Deze instellingen zijn nodig om het werk van taken met verschillende proxycheckers te scheiden; u kunt dit gedeelte overslaan als u alle beschikbare proxy's in alle taken wilt gebruiken.

Ga naar het menu Settings -> Config Presets, kies de gewenste preset of maak een nieuwe aan (knop Save as New (Nieuwe toevoegen)).

In het veld Proxy Checkers (Proxycheckers) kiest u een of meer proxycheckers (om ze te gebruiken moeten de proxycheckers ingeschakeld zijn) en slaat u dit op (Save (Opslaan)). U kunt ook direct alle proxycheckers selecteren via All (standaardwaarde).

Proxychecker kiezen voor een taak

Nu kunt u de gemaakte Thread-configuratie met de opgegeven proxy's in uw taken gebruiken door deze te selecteren in de Taak-editor.

Thread-configuratie selecteren

U kunt de proxychecker ook in elke scraper overschrijven met de overschrijvingsfunctie - Proxy Checker.

Proxychecker overschrijven

De optie Exclude from "All" in de proxychecker-instellingen maakt het mogelijk om de proxy's ervan uit te sluiten van het algemene gebruik in A-Parser. Deze optie is nuttig in gevallen waarin u bepaalde proxy's alleen beschikbaar wilt maken voor specifieke taken of alleen voor specifieke scrapers:

  • voor een taak moet de uitgesloten proxychecker expliciet worden geselecteerd
  • voor een specifieke scraper moet in de instellingen het gebruik van de uitgesloten proxychecker worden ingesteld

Wijzigingen in de logica

Voorheen, als in een taak een specifieke proxychecker was geselecteerd en in de scraper een andere proxychecker was opgegeven, wachtte de scraper op proxy's. Nu hebben de instellingen van de specifieke scraper een hogere prioriteit:

  • "All" - gebruikt alle proxy's die voor de taak zijn geselecteerd
  • specifieke proxychecker - gebruikt deze, zelfs als deze niet in de taak is geselecteerd

Parameters van proxycheckers

ParameternaamStandaardwaardeBeschrijving
Loading typeReplaceBepaalt of eerder geladen proxy's behouden moeten blijven of niet. Add - voegt altijd nieuwe proxy's toe aan de algemene lijst, Replace - vervangt oude proxy's door nieuw geladen proxy's
Load threads count5Aantal threads voor het laden van proxy's van websites
Load interval30Interval tussen volledige hercontroles van de lijst met websites
Load timeout30Time-out voor een verzoek aan een website met proxy's
Load max size524288Maximale grootte van de pagina met proxy's; als de pagina groter is, wordt deze ingekort tot de opgegeven grootte
Load limit count0Beperking van het aantal te laden proxy's, 0 om uit te schakelen
No check proxiesMaakt het mogelijk om de proxycontrole uit te schakelen. Alle geladen proxy's worden automatisch als werkend beschouwd
Proxies typeHTTP, SOCKS5Keuze welke type proxy's gecontroleerd moeten worden en in welke volgorde. Als zowel HTTP als SOCKS is opgegeven, wordt bij een mislukte controle op HTTP de proxy opnieuw gecontroleerd op het SOCKS-protocol
Check threads15Aantal threads voor de proxycontrole
Check urlhttp://work.a-poster.info:25000/Link naar het script voor proxycontrole. Momenteel wordt de controle uitgevoerd via de server van de scraper; in de toekomst kan dit gedrag veranderen
Check interval30Interval tussen volledige hercontroles van alle proxy's
Check timeout5Proxy time-out
Check max size5120Maximale grootte van de te downloaden pagina tijdens de proxycontrole
Check anonymousProxy's controleren op anonimiteit; indien geselecteerd, moet het External IP verplicht worden opgegeven
External IPExtern IP-adres van de computer\server; moet worden opgegeven als de optie Check anonymous is ingeschakeld
Exclude from "All"Standaard is in elke scraper "All" geselecteerd als proxychecker, wat betekent dat alle beschikbare proxycheckers worden gebruikt. Als deze optie is ingeschakeld, wordt de proxychecker uitgesloten van All.
Save alive proxies to fileNoWerkende proxy's opslaan in het bestand files/proxy/alive.txt
Use proxy authorizationAutorisatie gebruiken voor proxy's via gebruikersnaam\wachtwoord
Authorization loginGebruikersnaam voor autorisatie
Authorization passwordWachtwoord voor autorisatie

Installatie van het controlescript op hosting

opmerking

Standaard controleert A-Parser proxy's via zijn eigen controlescript, zonder dat het nodig is om een script op uw eigen hosting te installeren.

Upload het volgende PHP-script naar uw hosting of server en geef de link ernaar op in Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>