Vérificateurs de Proxy
Cette section affiche les statistiques de fonctionnement de tous les proxycheckers. Chaque proxychecker est un module fonctionnant en permanence (s'il est activé) qui vérifie les proxys et maintient ainsi une liste actualisée de proxys valides.
Il est possible d'ajouter un nombre illimité de proxycheckers et d'en choisir un ou plusieurs pour chaque tâche ou même pour chaque scraper au sein d'une tâche. Ainsi, il est possible d'utiliser, dans le cadre d'une même tâche, certains proxys pour collecter des données sur Google et d'autres totalement différents pour Yandex.

En haut s'affiche le nombre total de proxys valides et le nombre de proxycheckers lancés (actifs). En haut à droite se trouve le bouton pour ajouter un nouveau proxychecker. La procédure d'ajout des proxycheckers est décrite plus en détail dans la section Configuration des proxys.
Ci-dessous se trouve la liste de tous les proxycheckers existants sous forme de cartes contenant des informations sur chacun d'eux. Chaque carte affiche les informations suivantes :
- Working path - dossier contenant les fichiers du proxychecker dans
aparser/files/proxy - Update time - heure de la dernière vérification de la liste de proxys chargée
- Nombre de proxys dans la file de vérification et nombre total de proxys chargés
- Nombre de proxys valides
- Load state (Statut du chargement) ou date du prochain chargement depuis les sources de proxys
- Nombre de sources à partir desquelles les proxys ont été chargés avec succès la dernière fois et nombre total de sources dans ce proxychecker
- Le statut actuel de la vérification des proxys
La case à cocher Enabled à côté des boutons de gestion permet d'activer ou de désactiver le proxychecker.
Le proxychecker default figure toujours en premier dans la liste. Il sert de gabarit pour les nouveaux proxycheckers et ne peut être ni modifié ni supprimé.
Structure des fichiers
Les fichiers de travail du proxychecker se trouvent dans le dossier files/proxy/<nom du proxychecker> :
proxy.txt- le chargement des proxys s'effectue à partir de ce fichier, c'est ici qu'il faut placer la liste de proxyssites.txt- il faut placer dans ce fichier la liste des sources de proxys (liens vers les proxys, un lien par ligne)alive.txt- les proxys valides sont sauvegardés dans ce fichier toutes les 5 secondes si l'option correspondante est activéeregex.txt- ce fichier contient la liste des expressions régulières pour l'analyse des proxys provenant de sources externes (un format d'expression régulière par ligne, l'adresse IP doit être dans $1 et le port dans $2)
Si vous avez des liens vers des sources de proxys - indiquez-les dans le fichier sites.txt, le fichier proxy.txt doit rester vide
Pour le proxychecker "default", les fichiers se trouvent à la racine du catalogue files/proxy/
Ajout et configuration d'un proxychecker
Allez dans le menu "Proxychecker" et cliquez sur "Ajouter un checker" ou choisissez "Modifier" dans le menu déroulant d'un proxychecker existant. Vous accédez alors à la page de configuration du proxychecker.

Si nécessaire, définissez le nombre de threads requis pour la vérification des proxys (Threads de vérification), choisissez le type de proxy (Type de proxy) et modifiez les autres paramètres. Les valeurs par défaut conviennent à la plupart des tâches. Enregistrez les paramètres en tant que nouveau proxychecker. Il est impossible de modifier et d'enregistrer les paramètres du proxychecker default.
Les sources de proxys sont indiquées dans les fichiers à l'intérieur du dossier portant le nom du proxychecker créé (files/proxy/.../) :
- liens dans sites.txt
- liste de proxys dans proxy.txt

Proxys avec accès par IP
Les proxys avec accès par IP se configurent de manière similaire.
Liste de proxys avec un identifiant et mot de passe identique pour tous
Cette méthode convient lorsque la liste de proxys est au format ip:port et que l'identifiant/mot de passe est le même pour toute la liste.
Dans les paramètres du checker, indiquez :
- login
- password
- Utiliser l'authentification proxy

Liste de proxys avec des mots de passe différents pour chaque proxy
Dans ce cas, la liste de proxys doit être au format login:password@ip:port, il suffit d'indiquer Use proxy authorization (Utiliser l'authentification proxy) dans les paramètres du checker.

⏩ Vidéo : connexion de proxys avec authentification
Choix du proxychecker pour une tâche
Ces paramètres sont nécessaires pour séparer le fonctionnement des tâches avec différents proxycheckers, vous pouvez ignorer cette section s'il est nécessaire d'utiliser tous les proxys disponibles dans toutes les tâches.
Allez dans le menu Settings -> Threads settings, choisissez le préréglage souhaité ou créez-en un nouveau (bouton Add new (Ajouter un nouveau)).
Dans le champ Proxy Checkers (Proxycheckers), sélectionnez un ou plusieurs proxycheckers (pour être utilisés, les proxycheckers doivent être activés) et enregistrez (Save (Enregistrer)). Il est également possible de sélectionner tous les proxycheckers d'un coup avec All (valeur par défaut).

Vous pouvez maintenant utiliser la Configuration des threads créée, avec les proxys définis, dans vos tâches en la sélectionnant dans l'Éditeur de tâches.

Il est également possible de redéfinir le proxychecker dans chaque scraper à l'aide de la fonction de surcharge - Proxy Checker.

L'option Exclude from "All" dans les paramètres du proxychecker permet d'exclure ses proxys de l'utilisation générale dans A-Parser. Cette option est utile lorsqu'il est nécessaire de rendre certains proxys disponibles uniquement pour des tâches spécifiques ou seulement pour des scrapers spécifiques :
- pour la tâche, il faut sélectionner manuellement le proxychecker exclu
- pour un scraper spécifique, il faut configurer l'utilisation du proxychecker exclu dans ses paramètres
Changements dans la logique
Auparavant, si un proxychecker spécifique était choisi dans la tâche et qu'un autre proxychecker était indiqué dans le scraper, le scraper attendait les proxys. Désormais, les paramètres du scraper spécifique sont prioritaires :
- "All" - utilise tous les proxys sélectionnés pour la tâche
- un proxychecker spécifique - l'utilise même s'il n'est pas sélectionné dans la tâche
Paramètres des proxycheckers
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Loading type | Replace | Détermine s'il faut conserver les proxys précédemment chargés ou non, Add - ajoute toujours les nouveaux proxys à la liste générale, Replace - remplace les anciens proxys par les nouveaux chargés |
| Load threads count | 5 | Nombre de threads pour le chargement des proxys depuis les sites |
| Load interval | 30 | Intervalle entre les revérifications complètes de la liste des sites |
| Load timeout | 30 | Délai d'attente pour une requête vers un site de proxys |
| Load max size | 524288 | Taille maximale de la page de proxys, si la page est plus grande, elle est tronquée à la taille définie |
| Load limit count | 0 | Limitation du nombre de proxys chargés, 0 pour désactiver |
| No check proxies | ☐ | Permet de désactiver la vérification des proxys. Tous les proxys chargés sont automatiquement considérés comme valides |
| Proxies type | HTTP, SOCKS5 | Choix des types de proxys à vérifier et dans quel ordre, si HTTP et SOCKS sont indiqués simultanément, en cas d'échec de la vérification HTTP, le proxy sera revérifié avec le protocole SOCKS |
| Check threads | 15 | Nombre de threads pour la vérification des proxys |
| Check url | http://work.a-poster.info:25000/ | Lien vers le script de vérification des proxys, actuellement la vérification s'effectue via le serveur du scraper, ce comportement pourrait changer à l'avenir |
| Check interval | 30 | Intervalle entre les revérifications complètes de tous les proxys |
| Check timeout | 5 | Délai d'attente (timeout) du proxy |
| Check max size | 5120 | Taille maximale de la page téléchargée lors de la vérification du proxy |
| Check anonymous | ☐ | Vérifier l'anonymat du proxy, si sélectionné, il est impératif d'indiquer l'External IP |
| External IP | Adresse IP externe de l'ordinateur\serveur, nécessaire si l'option Check anonymous est activée | |
| Exclude from "All" | ☐ | Par défaut, dans chaque scraper, la valeur "All" est sélectionnée comme proxychecker, c'est-à-dire que tous les proxycheckers disponibles sont utilisés. Si l'option est activée, le proxychecker sera exclu de "All". |
| Save alive proxies to file | No | Sauvegarder les proxys valides dans le fichier files/proxy/alive.txt |
| Use proxy authorization | ☐ | Utiliser l'authentification pour les proxys par identifiant\mot de passe |
| Authorization login | Identifiant pour l'authentification | |
| Authorization password | Mot de passe pour l'authentification |
Installation du script de vérification sur un hébergement
Par défaut, A-Parser vérifie les proxys via son propre script de vérification, sans qu'il soit nécessaire d'installer un script sur votre propre hébergement.
Téléchargez le script PHP suivant sur votre hébergement ou serveur et indiquez le lien vers celui-ci dans Check url :
<?php
print_r($_SERVER);
print_r($_POST);
?>