Vai al contenuto principale

Proxy checker

In questa sezione vengono visualizzate le statistiche di funzionamento di tutti i proxychecker. Ogni proxychecker è un modulo costantemente attivo (se abilitato) che verifica i proxy e mantiene così un elenco aggiornato di proxy funzionanti.

È possibile aggiungere un numero illimitato di proxychecker e selezionarne uno o più per ogni attività o anche per ogni scraper all'interno di un'attività. In questo modo è possibile utilizzare, nell'ambito di una stessa attività, alcuni proxy ad esempio per lo scraping di Google e altri completamente diversi per Yandex.

Panoramica del Proxychecker

In alto viene visualizzato il numero totale di proxy attivi e il numero di proxychecker avviati (in funzione). In alto a destra si trova il pulsante per aggiungere un nuovo proxychecker. Maggiori dettagli sulla procedura di aggiunta dei proxychecker sono descritti nella sezione Configurazione proxy.

Sotto è presente l'elenco di tutti i proxychecker esistenti sotto forma di schede con informazioni su ciascuno di essi. Su ogni scheda vengono visualizzate le seguenti informazioni:

  • Working path - cartella con i file del proxychecker in aparser/files/proxy
  • Update time - l'ora dell'ultima verifica dell'elenco dei proxy caricati
  • Numero di proxy in coda di verifica e numero totale di proxy caricati
  • Numero di proxy attivi
  • Load state (Stato del caricamento) o data del prossimo caricamento dalle sorgenti proxy
  • Numero di sorgenti da cui i proxy sono stati caricati correttamente l'ultima volta e numero totale di sorgenti in questo proxychecker
  • Lo stato attuale della verifica dei proxy

La casella di controllo Enabled accanto ai pulsanti di gestione dei proxychecker permette di attivare/disattivare il proxychecker.

Il primo nell'elenco dei proxychecker è sempre il proxychecker default. Esso funge da modello per i nuovi proxychecker e non può essere modificato o eliminato.

Struttura dei file

I file di lavoro del proxychecker si trovano nella cartella files/proxy/<nome del proxychecker>:

  • proxy.txt - il caricamento dei proxy avviene da questo file, qui è necessario inserire l'elenco dei proxy
  • sites.txt - in questo file è necessario inserire l'elenco delle sorgenti dei proxy (link ai proxy, uno per riga)
  • alive.txt - in questo file vengono salvati i proxy attivi ogni 5 secondi se l'opzione corrispondente è abilitata
  • regex.txt - in questo file si trova l'elenco delle espressioni regolari per lo scraping dei proxy da sorgenti esterne (formato: un'espressione regolare per riga, l'indirizzo IP deve essere in $1, la porta in $2)
nota

Se disponi di link a sorgenti di proxy, indicali nel file sites.txt; il file proxy.txt deve essere lasciato vuoto
Per il proxychecker "default" i file si trovano nella radice della directory files/proxy/

Aggiunta e configurazione del proxychecker

Vai nel menu "Proxy Checker" e clicca su "Add checker" oppure seleziona "Edit" dal menu a discesa di un proxychecker esistente. Verrai indirizzato alla pagina di configurazione del proxychecker.

Aggiunta di un Proxychecker

Se necessario, imposta il numero desiderato di thread per la verifica dei proxy (Thread di verifica), seleziona il tipo di proxy (Tipo di proxy) e modifica le altre impostazioni. I valori predefiniti dei parametri sono adatti per la maggior parte delle attività. Salva le impostazioni come un nuovo proxychecker. Non è possibile modificare e salvare le impostazioni del proxychecker default.

Le sorgenti dei proxy vengono indicate nei file all'interno della cartella con il nome del proxychecker creato (files/proxy/.../):

  • link in sites.txt
  • elenco dei proxy in proxy.txt
Sorgenti proxy nella directory di lavoro

Proxy con accesso tramite IP

I proxy con accesso tramite IP si configurano in modo simile.

Elenco di proxy con le stesse credenziali per tutti i proxy

Questo metodo è adatto ai casi in cui l'elenco dei proxy ha il formato ip:port e il login/password è lo stesso per l'intero elenco

Nelle impostazioni del checker indica:

  • login
  • password
  • Usa l'autorizzazione proxy
Configurazione: elenco di proxy con le stesse credenziali per tutti i proxy

Elenco di proxy con password diverse per ogni proxy

In questo caso, l'elenco dei proxy deve avere il formato login:password@ip:port; nelle impostazioni del checker è sufficiente indicare Use proxy authorization (Usa l'autorizzazione proxy)

Configurazione: elenco di proxy con password diverse per ogni proxy

⏩ Video: collegamento di proxy con autorizzazione

Scelta del proxychecker per un'attività

nota

Queste impostazioni sono necessarie per separare il lavoro delle attività con diversi proxychecker; puoi saltare questa sezione se desideri utilizzare tutti i proxy disponibili in tutte le attività

Vai nel menu Settings -> Config Presets, seleziona il preset desiderato o creane uno nuovo (pulsante Save as New (Aggiungi nuovo)).

Nel campo Proxy Checkers (Proxychecker) seleziona uno o più proxychecker (per essere utilizzati, i proxychecker devono essere abilitati) e salva (Save (Salva)). È anche possibile selezionare contemporaneamente tutti i proxychecker All (valore predefinito).

Scelta del proxychecker per un'attività

Ora puoi utilizzare la Configurazione thread creata, con i proxy specificati, nelle tue attività selezionandola nell'Editor delle attività.

Scelta della configurazione dei thread

È inoltre possibile sovrascrivere il proxychecker in ogni scraper utilizzando la funzione di override - Proxy Checker.

Override del Proxychecker

L'opzione Exclude from "All" nelle impostazioni del proxychecker permette di escludere i suoi proxy dall'utilizzo generale in A-Parser. Questa opzione è utile nei casi in cui è necessario rendere determinati proxy disponibili solo per specifiche attività o solo per specifici scraper:

  • per l'attività è necessario selezionare forzatamente il proxychecker escluso
  • per lo scraper specifico è necessario impostare nelle impostazioni l'uso del proxychecker escluso

Modifiche alla logica

In precedenza, se in un'attività era selezionato un proxychecker specifico e nello scraper ne era indicato un altro, lo scraper rimaneva in attesa dei proxy. Ora le impostazioni dello scraper specifico hanno la priorità:

  • "All" - utilizza tutti i proxy selezionati per l'attività
  • proxychecker specifico - utilizza quello, anche se non è selezionato nell'attività

Parametri dei proxychecker

Nome parametroValore predefinitoDescrizione
Loading typeReplaceDetermina se conservare i proxy caricati in precedenza o meno: Add - aggiunge sempre i nuovi proxy all'elenco generale, Replace - sostituisce i vecchi proxy con i nuovi caricati
Load threads count5Numero di thread per il caricamento dei proxy dai siti
Load interval30Intervallo tra le ricontrolli completi dell'elenco dei siti
Load timeout30Timeout per la richiesta al sito con i proxy
Load max size524288Dimensione massima della pagina con i proxy; se la pagina è più grande, viene troncata alla dimensione specificata
Load limit count0Limite al numero di proxy caricabili, 0 per disattivare
No check proxiesPermette di disattivare la verifica dei proxy. Tutti i proxy caricati sono considerati automaticamente attivi
Proxies typeHTTP, SOCKS5Scelta di quali tipi di proxy verificare e in quale sequenza; se vengono indicati contemporaneamente HTTP e SOCKS, in caso di fallimento della verifica HTTP, il proxy verrà testato nuovamente con il protocollo SOCKS
Check threads15Numero di thread per la verifica dei proxy
Check urlhttp://work.a-poster.info:25000/Link allo script di verifica dei proxy; attualmente la verifica avviene tramite il server dello scraper, in futuro questo comportamento potrebbe cambiare
Check interval30Intervallo tra le verifiche complete di tutti i proxy
Check timeout5Timeout del proxy
Check max size5120Dimensione massima della pagina scaricata durante la verifica del proxy
Check anonymousVerifica l'anonimato del proxy; se selezionato, è obbligatorio indicare l'External IP
External IPIndirizzo IP esterno del computer\server, necessario se l'opzione Check anonymous è attiva
Exclude from "All"Per impostazione predefinita, in ogni scraper il valore del proxychecker è impostato su "All", ovvero vengono utilizzati tutti i proxychecker disponibili. Se questa opzione è attiva, il proxychecker sarà escluso da All.
Save alive proxies to fileNoSalva i proxy attivi nel file files/proxy/alive.txt
Use proxy authorizationUsa l'autorizzazione per i proxy tramite login\password
Authorization loginLogin per l'autorizzazione
Authorization passwordPassword per l'autorizzazione

Installazione dello script di verifica su hosting

nota

Per impostazione predefinita, A-Parser verifica i proxy tramite il proprio script di verifica, senza necessità di installare alcuno script sul proprio hosting

Carica sul tuo hosting o server il seguente script PHP e indica il link ad esso in Check url:

<?php

print_r($_SERVER);
print_r($_POST);

?>