Passer au contenu principal

Vérificateurs de Proxy

Cette section affiche les statistiques de fonctionnement de tous les proxycheckers. Chaque proxychecker est un module fonctionnant en permanence (s'il est activé) qui vérifie les proxys et maintient ainsi une liste actualisée de proxys valides.

Il est possible d'ajouter un nombre illimité de proxycheckers et d'en choisir un ou plusieurs pour chaque tâche ou même pour chaque scraper au sein d'une tâche. Ainsi, il est possible d'utiliser, dans le cadre d'une même tâche, certains proxys pour collecter des données sur Google et d'autres totalement différents pour Yandex.

Présentation du Proxychecker

En haut s'affiche le nombre total de proxys valides et le nombre de proxycheckers lancés (actifs). En haut à droite se trouve le bouton pour ajouter un nouveau proxychecker. La procédure d'ajout des proxycheckers est décrite plus en détail dans la section Configuration des proxys.

Ci-dessous se trouve la liste de tous les proxycheckers existants sous forme de cartes contenant des informations sur chacun d'eux. Chaque carte affiche les informations suivantes :

  • Working path - dossier contenant les fichiers du proxychecker dans aparser/files/proxy
  • Update time - heure de la dernière vérification de la liste de proxys chargée
  • Nombre de proxys dans la file de vérification et nombre total de proxys chargés
  • Nombre de proxys valides
  • Load state (Statut du chargement) ou date du prochain chargement depuis les sources de proxys
  • Nombre de sources à partir desquelles les proxys ont été chargés avec succès la dernière fois et nombre total de sources dans ce proxychecker
  • Le statut actuel de la vérification des proxys

La case à cocher Enabled à côté des boutons de gestion permet d'activer ou de désactiver le proxychecker.

Le proxychecker default figure toujours en premier dans la liste. Il sert de gabarit pour les nouveaux proxycheckers et ne peut être ni modifié ni supprimé.

Structure des fichiers

Les fichiers de travail du proxychecker se trouvent dans le dossier files/proxy/<nom du proxychecker> :

  • proxy.txt - le chargement des proxys s'effectue à partir de ce fichier, c'est ici qu'il faut placer la liste de proxys
  • sites.txt - il faut placer dans ce fichier la liste des sources de proxys (liens vers les proxys, un lien par ligne)
  • alive.txt - les proxys valides sont sauvegardés dans ce fichier toutes les 5 secondes si l'option correspondante est activée
  • regex.txt - ce fichier contient la liste des expressions régulières pour l'analyse des proxys provenant de sources externes (un format d'expression régulière par ligne, l'adresse IP doit être dans $1 et le port dans $2)
note

Si vous avez des liens vers des sources de proxys - indiquez-les dans le fichier sites.txt, le fichier proxy.txt doit rester vide
Pour le proxychecker "default", les fichiers se trouvent à la racine du catalogue files/proxy/

Ajout et configuration d'un proxychecker

Allez dans le menu "Proxychecker" et cliquez sur "Ajouter un checker" ou choisissez "Modifier" dans le menu déroulant d'un proxychecker existant. Vous accédez alors à la page de configuration du proxychecker.

Ajout d'un Proxychecker

Si nécessaire, définissez le nombre de threads requis pour la vérification des proxys (Threads de vérification), choisissez le type de proxy (Type de proxy) et modifiez les autres paramètres. Les valeurs par défaut conviennent à la plupart des tâches. Enregistrez les paramètres en tant que nouveau proxychecker. Il est impossible de modifier et d'enregistrer les paramètres du proxychecker default.

Les sources de proxys sont indiquées dans les fichiers à l'intérieur du dossier portant le nom du proxychecker créé (files/proxy/.../) :

  • liens dans sites.txt
  • liste de proxys dans proxy.txt
Sources de proxys dans le répertoire de travail

Proxys avec accès par IP

Les proxys avec accès par IP se configurent de manière similaire.

Liste de proxys avec un identifiant et mot de passe identique pour tous

Cette méthode convient lorsque la liste de proxys est au format ip:port et que l'identifiant/mot de passe est le même pour toute la liste.

Dans les paramètres du checker, indiquez :

  • login
  • password
  • Utiliser l'authentification proxy
Configuration : liste de proxys avec un identifiant et mot de passe identique pour tous

Liste de proxys avec des mots de passe différents pour chaque proxy

Dans ce cas, la liste de proxys doit être au format login:password@ip:port, il suffit d'indiquer Use proxy authorization (Utiliser l'authentification proxy) dans les paramètres du checker.

Configuration : liste de proxys avec des mots de passe différents pour chaque proxy

⏩ Vidéo : connexion de proxys avec authentification

Choix du proxychecker pour une tâche

note

Ces paramètres sont nécessaires pour séparer le fonctionnement des tâches avec différents proxycheckers, vous pouvez ignorer cette section s'il est nécessaire d'utiliser tous les proxys disponibles dans toutes les tâches.

Allez dans le menu Settings -> Threads settings, choisissez le préréglage souhaité ou créez-en un nouveau (bouton Add new (Ajouter un nouveau)).

Dans le champ Proxy Checkers (Proxycheckers), sélectionnez un ou plusieurs proxycheckers (pour être utilisés, les proxycheckers doivent être activés) et enregistrez (Save (Enregistrer)). Il est également possible de sélectionner tous les proxycheckers d'un coup avec All (valeur par défaut).

Choix du proxychecker pour une tâche

Vous pouvez maintenant utiliser la Configuration des threads créée, avec les proxys définis, dans vos tâches en la sélectionnant dans l'Éditeur de tâches.

Choix de la configuration des threads

Il est également possible de redéfinir le proxychecker dans chaque scraper à l'aide de la fonction de surcharge - Proxy Checker.

Surcharge du Proxychecker

L'option Exclude from "All" dans les paramètres du proxychecker permet d'exclure ses proxys de l'utilisation générale dans A-Parser. Cette option est utile lorsqu'il est nécessaire de rendre certains proxys disponibles uniquement pour des tâches spécifiques ou seulement pour des scrapers spécifiques :

  • pour la tâche, il faut sélectionner manuellement le proxychecker exclu
  • pour un scraper spécifique, il faut configurer l'utilisation du proxychecker exclu dans ses paramètres

Changements dans la logique

Auparavant, si un proxychecker spécifique était choisi dans la tâche et qu'un autre proxychecker était indiqué dans le scraper, le scraper attendait les proxys. Désormais, les paramètres du scraper spécifique sont prioritaires :

  • "All" - utilise tous les proxys sélectionnés pour la tâche
  • un proxychecker spécifique - l'utilise même s'il n'est pas sélectionné dans la tâche

Paramètres des proxycheckers

Nom du paramètreValeur par défautDescription
Loading typeReplaceDétermine s'il faut conserver les proxys précédemment chargés ou non, Add - ajoute toujours les nouveaux proxys à la liste générale, Replace - remplace les anciens proxys par les nouveaux chargés
Load threads count5Nombre de threads pour le chargement des proxys depuis les sites
Load interval30Intervalle entre les revérifications complètes de la liste des sites
Load timeout30Délai d'attente pour une requête vers un site de proxys
Load max size524288Taille maximale de la page de proxys, si la page est plus grande, elle est tronquée à la taille définie
Load limit count0Limitation du nombre de proxys chargés, 0 pour désactiver
No check proxiesPermet de désactiver la vérification des proxys. Tous les proxys chargés sont automatiquement considérés comme valides
Proxies typeHTTP, SOCKS5Choix des types de proxys à vérifier et dans quel ordre, si HTTP et SOCKS sont indiqués simultanément, en cas d'échec de la vérification HTTP, le proxy sera revérifié avec le protocole SOCKS
Check threads15Nombre de threads pour la vérification des proxys
Check urlhttp://work.a-poster.info:25000/Lien vers le script de vérification des proxys, actuellement la vérification s'effectue via le serveur du scraper, ce comportement pourrait changer à l'avenir
Check interval30Intervalle entre les revérifications complètes de tous les proxys
Check timeout5Délai d'attente (timeout) du proxy
Check max size5120Taille maximale de la page téléchargée lors de la vérification du proxy
Check anonymousVérifier l'anonymat du proxy, si sélectionné, il est impératif d'indiquer l'External IP
External IPAdresse IP externe de l'ordinateur\serveur, nécessaire si l'option Check anonymous est activée
Exclude from "All"Par défaut, dans chaque scraper, la valeur "All" est sélectionnée comme proxychecker, c'est-à-dire que tous les proxycheckers disponibles sont utilisés. Si l'option est activée, le proxychecker sera exclu de "All".
Save alive proxies to fileNoSauvegarder les proxys valides dans le fichier files/proxy/alive.txt
Use proxy authorizationUtiliser l'authentification pour les proxys par identifiant\mot de passe
Authorization loginIdentifiant pour l'authentification
Authorization passwordMot de passe pour l'authentification

Installation du script de vérification sur un hébergement

note

Par défaut, A-Parser vérifie les proxys via son propre script de vérification, sans qu'il soit nécessaire d'installer un script sur votre propre hébergement.

Téléchargez le script PHP suivant sur votre hébergement ou serveur et indiquez le lien vers celui-ci dans Check url :

<?php

print_r($_SERVER);
print_r($_POST);

?>