HTML::TextExtractor::LangDetect - Erkennung der Seitensprache
Übersicht über den Parser

HTML::TextExtractor::LangDetect bestimmt die Sprache der Website sowie die Genauigkeit der Bestimmung in Prozent. Unterstützt mehrseitige Datenerfassung und Navigation durch interne Seiten der Website bis zur angegebenen Tiefe, was es ermöglicht, alle Seiten der Website zu durchlaufen und interne sowie externe Links zu sammeln. Verfügt über integrierte Mittel zur Umgehung des Schutzes von CloudFlare und bietet zudem die Möglichkeit, Chrome als Engine für die Datenerfassung von E-Mails auf Seiten zu wählen, deren Daten durch Skripte geladen werden. Kann eine Geschwindigkeit von bis zu 2000 Anfragen pro Minute erreichen – das sind 120 000 Links pro Stunde.Erhobene Daten
- Bestimmt die Sprache der Website
- Genauigkeit der Bestimmung in %
Funktionen
- Mehrseitige Datenerfassung (Navigation durch Seiten)
- Unterstützt Komprimierung gzip/deflate/brotli
- Erkennung und Umwandlung von Website-Kodierungen in UTF-8
- Umgehung des CloudFlare-Schutzes
- Auswahl der Engine (HTTP oder Chrome)
- Bestimmung der Website-Sprache ohne Nutzung externer Dienste
- Genauigkeit der Bestimmung in %
Anwendungsfälle
- Auswahl von Domains mit einer bestimmten Inhaltssprache
Anfragen
Als Anfragen muss eine Liste von Websites angegeben werden, zum Beispiel:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Beispiele für die Ergebnisausgabe
A-Parser unterstützt eine flexible Formatierung der Ergebnisse dank der integrierten Template-Engine Template Toolkit, was die Ausgabe der Ergebnisse in beliebiger Form sowie in strukturierter Form wie CSV oder JSON ermöglicht.
Standardausgabe
Ergebnisformat:
$query: $lang\n
Beispiel für ein Ergebnis:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Mögliche Einstellungen
| Name des Parameters | Standardwert | Beschreibung |
|---|---|---|
| Good status | All | Auswahl, welche Antwort vom Server als erfolgreich gilt. Wenn bei der Datenerfassung eine andere Antwort vom Server kommt, wird die Anfrage mit einem anderen Proxy wiederholt. |
| Good code RegEx | Möglichkeit, einen regulären Ausdruck zur Überprüfung des Antwortcodes anzugeben. | |
| Method | GET | Anfragemethode. |
| POST body | Inhalt, der bei Verwendung der POST-Methode an den Server gesendet wird. Unterstützt die Variablen $query – Anfrage-URL, $query.orig – ursprüngliche Anfrage und $pagenum - Seitennummer bei Verwendung der Option Use Pages. | |
| Cookies | Möglichkeit, Cookies für die Anfrage anzugeben. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | User-Agent Header beim Abrufen von Seiten. |
| Additional headers | Möglichkeit, beliebige Anfrage-Header mit Unterstützung der Template-Engine-Funktionen und Verwendung von Variablen aus dem Abfrage-Builder anzugeben. | |
| Read only headers | ☐ | Nur Header lesen. In einigen Fällen spart dies Traffic, wenn der Inhalt nicht verarbeitet werden muss. |
| Detect charset on content | ☐ | Kodierung basierend auf dem Seiteninhalt erkennen. |
| Emulate browser headers | ☐ | Browser-Header emulieren. |
| Max redirects count | 7 | Maximale Anzahl an Weiterleitungen, denen der Parser folgt. |
| Max cookies count | 16 | Maximale Anzahl an zu speichernden Cookies. |
| Bypass CloudFlare | ☑ | Automatische Umgehung der CloudFlare-Prüfung. |
| Follow common redirects | ☑ | Ermöglicht Weiterleitungen http <-> https und www.domain <-> domain innerhalb einer Domain unter Umgehung des Limits Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Ermöglicht die Auswahl der Engine: HTTP (schneller, ohne JavaScript) oder Chrome (langsamer, JavaScript aktiviert). |
| Chrome Headless | ☐ | Wenn diese Option aktiviert ist, wird der Browser nicht angezeigt. |
| Chrome DevTools | ☑ | Ermöglicht die Verwendung von Chromium-Debugging-Tools. |
| Chrome Log Proxy connections | ☑ | Wenn diese Option aktiviert ist, werden Informationen zu Chrome-Verbindungen im Log ausgegeben. |
| Chrome Wait Until | networkidle2 | Bestimmt, wann eine Seite als geladen gilt. Details zu den Werten. |
| Use HTTP/2 transport | ☐ | Bestimmt, ob HTTP/2 anstelle von HTTP/1.1 verwendet werden soll. Zum Beispiel sperren Google und Majestic sofort, wenn HTTP/1.1 verwendet wird. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | CF-Umgehung via Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Maximale Anzahl an Seiten bei der CF-Umgehung via Chrome. |