HTML::TextExtractor::LangDetect - Détection de la langue de la page
Présentation du scraper

HTML::TextExtractor::LangDetect détermine la langue du site, ainsi que la précision de la détection en pourcentage. Prend en charge la collecte multipage et la navigation sur les pages internes du site jusqu'à la profondeur spécifiée, ce qui permet de parcourir toutes les pages du site en collectant les liens internes et externes. Dispose d'outils intégrés pour contourner la protection CloudFlare et offre également la possibilité de choisir Chrome comme moteur pour collecter les e-mails à partir de pages dont les données sont chargées par des scripts. Capable d'atteindre une vitesse allant jusqu'à 2000 requêtes par minute – soit 120 000 liens par heure.Données collectées
- Détermine la langue du site
- Précision de la détection en %
Fonctionnalités
- Collecte de données multipages (navigation à travers les pages)
- Prend en charge les compressions gzip/deflate/brotli
- Détection et conversion des encodages de sites en UTF-8
- Contournement de la protection CloudFlare
- Choix du moteur (HTTP ou Chrome)
- Détection de la langue du site sans utiliser de services tiers
- Précision de la détection en %
Cas d'utilisation
- Sélection de domaines avec une langue de contenu spécifique
Requêtes
En tant que requêtes, vous devez spécifier une liste de sites, par exemple :
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Exemples de sortie de résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que de manière structurée, par exemple en CSV ou JSON
Sortie par défaut
Format du résultat :
$query: $lang\n
Exemple de résultat :
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Paramètres possibles
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Good status | All | Sélection de la réponse du serveur qui sera considérée comme réussie. Si une autre réponse est reçue lors de la collecte, la requête sera répétée avec un autre proxy. |
| Good code RegEx | Possibilité de spécifier une expression régulière pour vérifier le code de réponse. | |
| Method | GET | Méthode de requête. |
| POST body | Contenu à envoyer au serveur lors de l'utilisation de la méthode POST. Prend en charge les variables $query – URL de la requête, $query.orig – requête d'origine et $pagenum - numéro de page lors de l'utilisation de l'option Use Pages. | |
| Cookies | Possibilité de spécifier des cookies pour la requête. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | En-tête User-Agent lors de la requête des pages. |
| Additional headers | Possibilité de spécifier des en-têtes de requête personnalisés avec prise en charge du moteur de gabarit et utilisation des variables du constructeur de requêtes. | |
| Read only headers | ☐ | Lire uniquement les en-têtes. Dans certains cas, cela permet d'économiser du trafic s'il n'est pas nécessaire de traiter le contenu. |
| Detect charset on content | ☐ | Reconnaître l'encodage basé sur le contenu de la page. |
| Emulate browser headers | ☐ | Émuler les en-têtes du navigateur. |
| Max redirects count | 7 | Nombre maximum de redirections que le scraper suivra. |
| Max cookies count | 16 | Nombre maximum de cookies à enregistrer. |
| Bypass CloudFlare | ☑ | Contournement automatique de la vérification CloudFlare. |
| Follow common redirects | ☑ | Permet d'effectuer des redirections http <-> https et www.domain <-> domain au sein d'un même domaine en contournant la limite Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Permet de choisir le moteur HTTP (plus rapide, sans JavaScript) ou Chrome (plus lent, JavaScript activé). |
| Chrome Headless | ☐ | Si l'option est activée, le navigateur ne sera pas affiché. |
| Chrome DevTools | ☑ | Permet d'utiliser les outils de débogage de Chromium. |
| Chrome Log Proxy connections | ☑ | Si l'option est activée, les informations sur les connexions chrome seront affichées dans le log. |
| Chrome Wait Until | networkidle2 | Détermine quand la page est considérée comme chargée. Plus de détails sur les valeurs. |
| Use HTTP/2 transport | ☐ | Détermine s'il faut utiliser HTTP/2 au lieu de HTTP/1.1. Par exemple, Google et Majestic bannissent immédiatement si HTTP/1.1 est utilisé. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Contournement de CF via Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Nombre max de pages lors du contournement de CF via Chrome. |