HTML::TextExtractor::LangDetect - Determinación del idioma de la página
Descripción del extractor

HTML::TextExtractor::LangDetect determina el idioma del sitio, así como la precisión de la determinación en porcentaje. Admite la extracción de datos multipágina y la navegación por páginas internas del sitio hasta la profundidad especificada, lo que permite recorrer todas las páginas del sitio recopilando enlaces internos y externos. Cuenta con herramientas integradas para omitir la protección de CloudFlare y también la posibilidad de elegir Chrome como motor para la extracción de correos de páginas cuyos datos se cargan mediante scripts. Es capaz de alcanzar una velocidad de hasta 2000 consultas por minuto, lo que equivale a 120 000 enlaces por hora.Datos recopilados
- Determina el idioma del sitio
- Precisión de la determinación en %
Capacidades
- Extracción de datos multipágina (navegación por páginas)
- Soporta compresión gzip/deflate/brotli
- Determinación y conversión de codificaciones de sitios a UTF-8
- Omisión de la protección de CloudFlare
- Elección del motor (HTTP o Chrome)
- Determinación del idioma del sitio sin utilizar servicios de terceros
- Precisión de la determinación en %
Variantes de uso
- Selección de dominios con un idioma de contenido específico
Consultas
Como consultas, es necesario especificar una lista de sitios, por ejemplo:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Variantes de visualización de resultados
A-Parser admite un formateo flexible de los resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en cualquier forma, así como en formato estructurado, por ejemplo, CSV o JSON
Salida por defecto
Formato del resultado:
$query: $lang\n
Ejemplo de resultado:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Configuraciones posibles
| Nombre del parámetro | Valor por defecto | Descripción |
|---|---|---|
| Good status | All | Selección de qué respuesta del servidor se considerará exitosa. Si durante la extracción de datos hay otra respuesta del servidor, la consulta se repetirá con otro proxy. |
| Good code RegEx | Posibilidad de especificar una expresión regular para verificar el código de respuesta. | |
| Method | GET | Método de consulta. |
| POST body | Contenido para enviar al servidor cuando se utiliza el método POST. Admite las variables $query: URL de la consulta, $query.orig: consulta original y $pagenum: número de página cuando se utiliza la opción Use Pages. | |
| Cookies | Posibilidad de especificar cookies para la consulta. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | Encabezado User-Agent al solicitar páginas. |
| Additional headers | Posibilidad de especificar encabezados de consulta personalizados con soporte para las capacidades del motor de plantillas y el uso de variables del constructor de consultas. | |
| Read only headers | ☐ | Leer solo encabezados. En algunos casos permite ahorrar tráfico si no es necesario procesar el contenido. |
| Detect charset on content | ☐ | Reconocer la codificación basada en el contenido de la página. |
| Emulate browser headers | ☐ | Emular encabezados de navegador. |
| Max redirects count | 7 | Número máximo de redirecciones que seguirá el extractor. |
| Max cookies count | 16 | Número máximo de cookies a guardar. |
| Bypass CloudFlare | ☑ | Omisión automática de la verificación de CloudFlare. |
| Follow common redirects | ☑ | Permite realizar redirecciones http <-> https y www.domain <-> domain dentro de un mismo dominio omitiendo el límite de Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Permite elegir el motor HTTP (más rápido, sin JavaScript) o Chrome (más lento, JavaScript habilitado). |
| Chrome Headless | ☐ | Si la opción está activada, el navegador no se mostrará. |
| Chrome DevTools | ☑ | Permite utilizar herramientas de depuración de Chromium. |
| Chrome Log Proxy connections | ☑ | Si la opción está activada, se mostrará información sobre las conexiones de chrome en el registro. |
| Chrome Wait Until | networkidle2 | Determina cuándo se considera que la página ha cargado. Más detalles sobre los valores. |
| Use HTTP/2 transport | ☐ | Determina si usar HTTP/2 en lugar de HTTP/1.1. Por ejemplo, Google y Majestic banean de inmediato si se usa HTTP/1.1. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Omisión de CF a través de Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Número máx. de páginas al omitir CF a través de Chrome. |