Hoppa till huvudinnehåll

Proxycheckers

I det här avsnittet visas arbetsstatistik för alla proxycheckers. Varje proxychecker är en ständigt körande modul (om den är aktiverad) som kontrollerar proxyer och därmed har en aktuell lista över fungerande proxyer.

Det går att lägga till ett obegränsat antal proxycheckers och välja en eller flera av dem för varje uppgift eller till och med för varje scraper i uppgiften. På så sätt är det möjligt att inom ramen för en uppgift använda vissa proxyer för till exempel dataskrapning av Google och helt andra för Yandex.

Översikt över Proxychecker

Längst upp visas det totala antalet fungerande proxyer och antalet startade (aktiva) proxycheckers. Uppe till höger finns en knapp för att lägga till en ny proxychecker. Mer information om proceduren för att lägga till proxycheckers finns i avsnittet Proxyinställningar.

Nedan finns en lista över alla befintliga proxycheckers i form av kort med information om varje proxychecker. På varje kort visas följande information:

  • Working path - mapp med filer för proxycheckern i aparser/files/proxy
  • Update time - tidpunkten för den senaste kontrollen av den laddade proxylistan
  • Antal proxyer i kontrollkön och totalt antal laddade proxyer
  • Antal fungerande proxyer
  • Load state (Nedladdningsstatus) eller datum för nästa nedladdning från proxykällor
  • Antal källor från vilka proxyer senast laddades ner framgångsrikt och totalt antal källor i denna proxychecker
  • Aktuell status för proxykontroll

Kryssrutan Enabled (Aktiverad) bredvid kontrollknapparna för proxycheckers gör det möjligt att aktivera/inaktivera proxycheckern.

Först i listan över proxycheckers finns alltid proxycheckern default. Den fungerar som en mall för nya proxycheckers och kan inte redigeras eller tas bort.

Filstruktur

Proxycheckerns arbetsfiler finns i mappen files/proxy/<namn på proxychecker>:

  • proxy.txt - från denna fil laddas proxyer, här ska listan över proxyer placeras
  • sites.txt - i denna fil ska listan över proxykällor placeras (länkar till proxyer, formatet är en länk per rad)
  • alive.txt - i denna fil sparas fungerande proxyer var 5:e sekund om motsvarande alternativ är aktiverat
  • regex.txt - i denna fil finns en lista över reguljära uttryck för att skrapa proxyer från externa källor (formatet är ett reguljärt uttryck per rad, $1 ska vara IP-adress, $2 - port)
anteckning

Om du har länkar till proxykällor - ange dem i filen sites.txt, filen proxy.txt bör lämnas tom
För "default" proxychecker finns filerna i roten av katalogen files/proxy/

Lägga till och konfigurera en proxychecker

Gå till menyn "Proxy Checker" och klicka på "Add checker" eller välj "Edit" i rullgardinsmenyn för en befintlig proxychecker. Du kommer då till sidan för inställningar av proxycheckern.

Lägga till Proxychecker

Vid behov ställer du in önskat antal trådar för proxykontroll (Kontrolltrådar), väljer proxytyp (Proxytyp) och ändrar andra inställningar. Standardvärdena för parametrarna passar de flesta uppgifter. Spara inställningarna som en ny proxychecker. Det går inte att ändra och spara inställningarna för default-proxycheckern.

Proxykällor anges i filer inuti mappen med namnet på den skapade proxycheckern (files/proxy/.../):

  • länkar i sites.txt
  • lista över proxyer i proxy.txt
Proxykällor i arbetskatalogen

Proxyer med IP-åtkomst

Proxyer med åtkomst via IP konfigureras på ett liknande sätt.

Proxylista med samma inloggningsuppgifter för alla proxyer

Denna metod är lämplig för fall där proxylistan har formatet ip:port och användarnamn/lösenord är detsamma för hela listan

I checker-inställningarna anger vi:

  • login
  • password
  • Använd proxyautentisering
Inställning: proxylista med samma användarnamn och lösenord för alla proxyer

Proxylista med olika lösenord för varje proxy

I detta fall ska proxylistan ha formatet login:password@ip:port, i checker-inställningarna räcker det att ange Use proxy authorization (Använd proxyautentisering)

Inställning: proxylista med olika lösenord för varje proxy

⏩ Video: anslutning av proxy med autentisering

Val av proxychecker för en uppgift

anteckning

Dessa inställningar är nödvändiga för att separera arbetet för uppgifter med olika proxycheckers, du kan hoppa över detta avsnitt om du vill använda alla tillgängliga proxyer i alla uppgifter

Gå till menyn Settings -> Config Presets, välj önskad förinställning eller skapa en ny (knappen Save as New (Lägg till ny)).

I fältet Proxy Checkers (Proxycheckers) väljer du en eller flera proxycheckers (för att användas måste proxycheckers vara aktiverade) och sparar (Save (Spara)). Det går även att välja alla proxycheckers samtidigt genom All (standardvärde).

Val av proxychecker för en uppgift

Nu kan du använda den skapade trådkonfigurationen med de angivna proxyerna i dina uppgifter genom att välja den i Task Editor.

Val av trådkonfiguration

Det går även att åsidosätta proxycheckern i varje scraper med hjälp av funktionen för åsidosättning - Proxy Checker.

Åsidosättning av Proxychecker

Alternativet Exclude from "All" i inställningarna för proxychecker gör det möjligt att exkludera dess proxyer från den allmänna användningen i A-Parser. Detta alternativ är användbart i de fall då man behöver göra vissa proxyer tillgängliga endast för specifika uppgifter eller endast för specifika scrapers:

  • för uppgiften måste man uttryckligen välja den exkluderade proxycheckern
  • för en specifik scraper måste man i inställningarna ange användning av den exkluderade proxycheckern

Ändringar i logiken

Tidigare, om en specifik proxychecker valdes i uppgiften men en annan proxychecker angavs i scrapern, väntade scrapern på proxyer. Nu har inställningarna för den specifika scrapern högre prioritet:

  • "All" - använder alla proxyer som valts för uppgiften
  • specifik proxychecker - använder den, även om den inte är vald i uppgiften

Parametrar för proxycheckers

ParameternamnStandardvärdeBeskrivning
Loading typeReplaceAvgör om tidigare laddade proxyer ska behållas eller inte, Add - lägger alltid till nya proxyer i den allmänna listan, Replace - ersätter gamla proxyer med de nyligen laddade
Load threads count5Antal trådar för nedladdning av proxyer från webbplatser
Load interval30Intervall mellan fullständig omkontroll av listan över webbplatser
Load timeout30Timeout för begäran till webbplats med proxyer
Load max size524288Maximal storlek på sidan med proxyer, om sidan är större beskärs den till den angivna storleken
Load limit count0Begränsning av antal laddade proxyer, 0 för att inaktivera
No check proxiesGör det möjligt att inaktivera proxykontroll. Alla laddade proxyer anses automatiskt vara fungerande
Proxies typeHTTP, SOCKS5Val av vilka proxytyper som ska kontrolleras och i vilken ordning, om både HTTP och SOCKS anges kommer en proxy som misslyckas vid HTTP-kontroll att kontrolleras igen med SOCKS-protokollet
Check threads15Antal trådar för proxykontroll
Check urlhttp://work.a-poster.info:25000/Länk till skript för proxykontroll, för närvarande sker kontrollen via scraperns server, i framtiden kan detta beteende ändras
Check interval30Intervall mellan fullständiga omkontroller av alla proxyer
Check timeout5Proxy-timeout
Check max size5120Maximal storlek på den nedladdade sidan vid proxykontroll
Check anonymousKontrollera proxyer för anonymitet, om valt måste External IP anges
External IPExtern IP-adress för datorn\servern, måste anges om alternativet Check anonymous är aktiverat
Exclude from "All"Som standard är värdet "All" valt som proxychecker i varje scraper, vilket innebär att alla tillgängliga proxycheckers används. Om alternativet är aktiverat kommer proxycheckern att exkluderas från All.
Save alive proxies to fileNoSpara fungerande proxyer i filen files/proxy/alive.txt
Use proxy authorizationAnvänd autentisering för proxyer via användarnamn\lösenord
Authorization loginAnvändarnamn för autentisering
Authorization passwordLösenord för autentisering

Installation av kontrollskript på webbhotell

anteckning

Som standard kontrollerar A-Parser proxyer via sitt eget kontrollskript, utan att du behöver installera skriptet på ditt eget webbhotell

Ladda upp följande PHP-skript till ditt webbhotell eller din server och ange länken till det i Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>