Glossaire des termes
Scraper
Un scraper est un script qui collecte des données à partir de ressources web spécifiées selon des requêtes données, les traite et affiche le résultat dans un format par défaut ou spécifié.
Scrapers intégrés
Les scrapers intégrés sont des scrapers préinstallés, disponibles dès le départ, dont le bon fonctionnement est maintenu en permanence.
Scrapers JS personnalisés
Les scrapers JS personnalisés sont des scrapers à code source ouvert, écrits en JavaScript et disponibles dans l'Éditeur de scrapers JS, qui peuvent être exportés et importés avec une tâche. Des exemples de tels scrapers peuvent être trouvés dans le Catalogue de scrapers et de présélections.
Présélection
Une présélection est à la fois une tâche enregistrée, qui est créée dans l'Éditeur de tâches en choisissant un ensemble de scrapers, de paramètres et d'options pour accomplir une tâche, et les paramètres d'un scraper individuel (présélection de paramètres).
Paramètres du scraper
Les paramètres du scraper sont des options qui peuvent être éditées ou modifiées (redéfinies) pour changer l'algorithme de fonctionnement du scraper afin d'obtenir un résultat non standard.
Tâche enregistrée
Une tâche enregistrée est une présélection qui a été sauvegardée et peut être réutilisée.
Config des threads
Une config des threads est un ensemble de paramètres de threads qui peut être enregistré sous un nom et réutilisé avec différentes présélections.
Threads
Les threads sont une multitude de contextes lancés simultanément pour la collecte de données, dans lesquels le scraper exécute des requêtes en parallèle, parcourt les proxies selon une stratégie définie dans la Config des threads, et journalise le processus d'exécution de la collecte de données pour chaque requête.
Proxychecker
Le proxychecker est un contrôleur responsable du chargement et de la vérification des proxies, en utilisant un ensemble de paramètres de proxychecker.
Proxy
Un proxy est une chaîne/tableau de chaînes d'un format spécifique (ou un lien vers une chaîne/tableau de chaînes), qui permet de masquer l'adresse IP réelle en envoyant des requêtes lors de la collecte de données et en transmettant des paquets de données du serveur au client via un serveur proxy intermédiaire.
Gabarit de résultat
Le gabarit de résultat est un modèle qui définit le format et les données collectées du résultat, configuré directement ou à l'aide du moteur de gabarit intégré Template Toolkit.