Zum Hauptinhalt springen

HTML::TextExtractor::LangDetect - Erkennung der Seitensprache

Übersicht über den Parser

Übersicht über den ParserHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect bestimmt die Sprache der Website sowie die Genauigkeit der Bestimmung in Prozent. Unterstützt mehrseitige Datenerfassung und Navigation durch interne Seiten der Website bis zur angegebenen Tiefe, was es ermöglicht, alle Seiten der Website zu durchlaufen und interne sowie externe Links zu sammeln. Verfügt über integrierte Mittel zur Umgehung des Schutzes von CloudFlare und bietet zudem die Möglichkeit, Chrome als Engine für die Datenerfassung von E-Mails auf Seiten zu wählen, deren Daten durch Skripte geladen werden. Kann eine Geschwindigkeit von bis zu 2000 Anfragen pro Minute erreichen – das sind 120 000 Links pro Stunde.

Erhobene Daten

  • Bestimmt die Sprache der Website
  • Genauigkeit der Bestimmung in %

Funktionen

  • Mehrseitige Datenerfassung (Navigation durch Seiten)
  • Unterstützt Komprimierung gzip/deflate/brotli
  • Erkennung und Umwandlung von Website-Kodierungen in UTF-8
  • Umgehung des CloudFlare-Schutzes
  • Auswahl der Engine (HTTP oder Chrome)
  • Bestimmung der Website-Sprache ohne Nutzung externer Dienste
  • Genauigkeit der Bestimmung in %

Anwendungsfälle

  • Auswahl von Domains mit einer bestimmten Inhaltssprache

Anfragen

Als Anfragen muss eine Liste von Websites angegeben werden, zum Beispiel:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Beispiele für die Ergebnisausgabe

A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was die Ausgabe der Ergebnisse in beliebiger Form sowie in strukturierter Form wie CSV oder JSON ermöglicht.

Standardausgabe

Ergebnisformat:

$query: $lang\n

Beispiel für ein Ergebnis:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Mögliche Einstellungen

Name des ParametersStandardwertBeschreibung
Good statusAllAuswahl, welche Antwort vom Server als erfolgreich gilt. Wenn bei der Datenerfassung eine andere Antwort vom Server kommt, wird die Anfrage mit einem anderen Proxy wiederholt.
Good code RegExMöglichkeit, einen regulären Ausdruck zur Überprüfung des Antwortcodes anzugeben.
MethodGETAnfragemethode.
POST bodyInhalt, der bei Verwendung der POST-Methode an den Server gesendet wird. Unterstützt die Variablen $query – Anfrage-URL, $query.orig – ursprüngliche Anfrage und $pagenum - Seitennummer bei Verwendung der Option Use Pages.
CookiesMöglichkeit, Cookies für die Anfrage anzugeben.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)User-Agent Header beim Abrufen von Seiten.
Additional headersMöglichkeit, beliebige Anfrage-Header mit Unterstützung der Template-Engine-Funktionen und Verwendung von Variablen aus dem Abfrage-Builder anzugeben.
Read only headersNur Header lesen. In einigen Fällen spart dies Traffic, wenn der Inhalt nicht verarbeitet werden muss.
Detect charset on contentKodierung basierend auf dem Seiteninhalt erkennen.
Emulate browser headersBrowser-Header emulieren.
Max redirects count7Maximale Anzahl an Weiterleitungen, denen der Parser folgt.
Max cookies count16Maximale Anzahl an zu speichernden Cookies.
Bypass CloudFlareAutomatische Umgehung der CloudFlare-Prüfung.
Follow common redirectsErmöglicht Weiterleitungen http <-> https und www.domain <-> domain innerhalb einer Domain unter Umgehung des Limits Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Ermöglicht die Auswahl der Engine: HTTP (schneller, ohne JavaScript) oder Chrome (langsamer, JavaScript aktiviert).
Chrome HeadlessWenn diese Option aktiviert ist, wird der Browser nicht angezeigt.
Chrome DevToolsErmöglicht die Verwendung von Chromium-Debugging-Tools.
Chrome Log Proxy connectionsWenn diese Option aktiviert ist, werden Informationen zu Chrome-Verbindungen im Log ausgegeben.
Chrome Wait Untilnetworkidle2Bestimmt, wann eine Seite als geladen gilt. Details zu den Werten.
Use HTTP/2 transportBestimmt, ob HTTP/2 anstelle von HTTP/1.1 verwendet werden soll. Zum Beispiel sperren Google und Majestic sofort, wenn HTTP/1.1 verwendet wird.
Bypass CloudFlare with Chrome(Experimental)CF-Umgehung via Chrome.
Bypass CloudFlare with Chrome Max PagesMaximale Anzahl an Seiten bei der CF-Umgehung via Chrome.