Ir al contenido principal

HTML::TextExtractor::LangDetect - Determinación del idioma de la página

Descripción del extractor

Descripción del extractorHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect determina el idioma del sitio, así como la precisión de la determinación en porcentaje. Admite la extracción de datos multipágina y la navegación por páginas internas del sitio hasta la profundidad especificada, lo que permite recorrer todas las páginas del sitio recopilando enlaces internos y externos. Cuenta con herramientas integradas para omitir la protección de CloudFlare y también la posibilidad de elegir Chrome como motor para la extracción de correos de páginas cuyos datos se cargan mediante scripts. Es capaz de alcanzar una velocidad de hasta 2000 consultas por minuto, lo que equivale a 120 000 enlaces por hora.

Datos recopilados

  • Determina el idioma del sitio
  • Precisión de la determinación en %

Capacidades

  • Extracción de datos multipágina (navegación por páginas)
  • Soporta compresión gzip/deflate/brotli
  • Determinación y conversión de codificaciones de sitios a UTF-8
  • Omisión de la protección de CloudFlare
  • Elección del motor (HTTP o Chrome)
  • Determinación del idioma del sitio sin utilizar servicios de terceros
  • Precisión de la determinación en %

Variantes de uso

  • Selección de dominios con un idioma de contenido específico

Consultas

Como consultas, es necesario especificar una lista de sitios, por ejemplo:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Variantes de visualización de resultados

A-Parser admite un formateo flexible de los resultados gracias al motor de plantillas integrado Template Toolkit, lo que le permite mostrar los resultados en cualquier forma, así como en formato estructurado, por ejemplo, CSV o JSON

Salida por defecto

Formato del resultado:

$query: $lang\n

Ejemplo de resultado:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Configuraciones posibles

Nombre del parámetroValor por defectoDescripción
Good statusAllSelección de qué respuesta del servidor se considerará exitosa. Si durante la extracción de datos hay otra respuesta del servidor, la consulta se repetirá con otro proxy.
Good code RegExPosibilidad de especificar una expresión regular para verificar el código de respuesta.
MethodGETMétodo de consulta.
POST bodyContenido para enviar al servidor cuando se utiliza el método POST. Admite las variables $query: URL de la consulta, $query.orig: consulta original y $pagenum: número de página cuando se utiliza la opción Use Pages.
CookiesPosibilidad de especificar cookies para la consulta.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Encabezado User-Agent al solicitar páginas.
Additional headersPosibilidad de especificar encabezados de consulta personalizados con soporte para las capacidades del motor de plantillas y el uso de variables del constructor de consultas.
Read only headersLeer solo encabezados. En algunos casos permite ahorrar tráfico si no es necesario procesar el contenido.
Detect charset on contentReconocer la codificación basada en el contenido de la página.
Emulate browser headersEmular encabezados de navegador.
Max redirects count7Número máximo de redirecciones que seguirá el extractor.
Max cookies count16Número máximo de cookies a guardar.
Bypass CloudFlareOmisión automática de la verificación de CloudFlare.
Follow common redirectsPermite realizar redirecciones http <-> https y www.domain <-> domain dentro de un mismo dominio omitiendo el límite de Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Permite elegir el motor HTTP (más rápido, sin JavaScript) o Chrome (más lento, JavaScript habilitado).
Chrome HeadlessSi la opción está activada, el navegador no se mostrará.
Chrome DevToolsPermite utilizar herramientas de depuración de Chromium.
Chrome Log Proxy connectionsSi la opción está activada, se mostrará información sobre las conexiones de chrome en el registro.
Chrome Wait Untilnetworkidle2Determina cuándo se considera que la página ha cargado. Más detalles sobre los valores.
Use HTTP/2 transportDetermina si usar HTTP/2 en lugar de HTTP/1.1. Por ejemplo, Google y Majestic banean de inmediato si se usa HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)Omisión de CF a través de Chrome.
Bypass CloudFlare with Chrome Max PagesNúmero máx. de páginas al omitir CF a través de Chrome.