Passer au contenu principal

HTML::TextExtractor::LangDetect - Détection de la langue de la page

Présentation du scraper

Présentation du scraperHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect détermine la langue du site, ainsi que la précision de la détection en pourcentage. Prend en charge la collecte multipage et la navigation sur les pages internes du site jusqu'à la profondeur spécifiée, ce qui permet de parcourir toutes les pages du site en collectant les liens internes et externes. Dispose d'outils intégrés pour contourner la protection CloudFlare et offre également la possibilité de choisir Chrome comme moteur pour collecter les e-mails à partir de pages dont les données sont chargées par des scripts. Capable d'atteindre une vitesse allant jusqu'à 2000 requêtes par minute – soit 120 000 liens par heure.

Données collectées

  • Détermine la langue du site
  • Précision de la détection en %

Fonctionnalités

  • Collecte de données multipages (navigation à travers les pages)
  • Prend en charge les compressions gzip/deflate/brotli
  • Détection et conversion des encodages de sites en UTF-8
  • Contournement de la protection CloudFlare
  • Choix du moteur (HTTP ou Chrome)
  • Détection de la langue du site sans utiliser de services tiers
  • Précision de la détection en %

Cas d'utilisation

  • Sélection de domaines avec une langue de contenu spécifique

Requêtes

En tant que requêtes, vous devez spécifier une liste de sites, par exemple :

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Exemples de sortie de résultats

A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet de sortir les résultats sous n'importe quelle forme, ainsi que de manière structurée, par exemple en CSV ou JSON

Sortie par défaut

Format du résultat :

$query: $lang\n

Exemple de résultat :

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Paramètres possibles

Nom du paramètreValeur par défautDescription
Good statusAllSélection de la réponse du serveur qui sera considérée comme réussie. Si une autre réponse est reçue lors de la collecte, la requête sera répétée avec un autre proxy.
Good code RegExPossibilité de spécifier une expression régulière pour vérifier le code de réponse.
MethodGETMéthode de requête.
POST bodyContenu à envoyer au serveur lors de l'utilisation de la méthode POST. Prend en charge les variables $query – URL de la requête, $query.orig – requête d'origine et $pagenum - numéro de page lors de l'utilisation de l'option Use Pages.
CookiesPossibilité de spécifier des cookies pour la requête.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)En-tête User-Agent lors de la requête des pages.
Additional headersPossibilité de spécifier des en-têtes de requête personnalisés avec prise en charge du moteur de gabarit et utilisation des variables du constructeur de requêtes.
Read only headersLire uniquement les en-têtes. Dans certains cas, cela permet d'économiser du trafic s'il n'est pas nécessaire de traiter le contenu.
Detect charset on contentReconnaître l'encodage basé sur le contenu de la page.
Emulate browser headersÉmuler les en-têtes du navigateur.
Max redirects count7Nombre maximum de redirections que le scraper suivra.
Max cookies count16Nombre maximum de cookies à enregistrer.
Bypass CloudFlareContournement automatique de la vérification CloudFlare.
Follow common redirectsPermet d'effectuer des redirections http <-> https et www.domain <-> domain au sein d'un même domaine en contournant la limite Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Permet de choisir le moteur HTTP (plus rapide, sans JavaScript) ou Chrome (plus lent, JavaScript activé).
Chrome HeadlessSi l'option est activée, le navigateur ne sera pas affiché.
Chrome DevToolsPermet d'utiliser les outils de débogage de Chromium.
Chrome Log Proxy connectionsSi l'option est activée, les informations sur les connexions chrome seront affichées dans le log.
Chrome Wait Untilnetworkidle2Détermine quand la page est considérée comme chargée. Plus de détails sur les valeurs.
Use HTTP/2 transportDétermine s'il faut utiliser HTTP/2 au lieu de HTTP/1.1. Par exemple, Google et Majestic bannissent immédiatement si HTTP/1.1 est utilisé.
Bypass CloudFlare with Chrome(Experimental)Contournement de CF via Chrome.
Bypass CloudFlare with Chrome Max PagesNombre max de pages lors du contournement de CF via Chrome.