HTML::TextExtractor::LangDetect - Detecção de idioma da página

Visão geral do Scraper

HTML::TextExtractor::LangDetect determina o idioma do site, bem como a precisão da detecção em porcentagem. Suporta extração de dados em múltiplas páginas e navegação por páginas internas do site até a profundidade especificada, o que permite percorrer todas as páginas do site, coletando links internos e externos. Possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas cujos dados são carregados por scripts. É capaz de atingir velocidades de até 2000 requisições por minuto – isso são 120 000 links por hora.

Ir para DEMO Comprar A-Parser Pro ($299)

Dados coletados

Determina o idioma do site
Precisão da detecção em %

Recursos

Extração de dados em múltiplas páginas (navegação por páginas)
Suporta compressão gzip/deflate/brotli
Detecção e conversão de codificações de sites para UTF-8
Contorno de proteção CloudFlare
Escolha do motor (HTTP ou Chrome)
Detecção do idioma do site sem o uso de serviços de terceiros
Precisão da detecção em %

Variantes de uso

Seleção de domínios com um idioma de conteúdo específico

Consultas

Como consultas, é necessário indicar uma lista de sites, por exemplo:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao processador de modelos integrado Template Toolkit, o que permite exibir resultados em forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON

Saída padrão

Formato do resultado:

$query: $lang\n

Exemplo de resultado:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Configurações possíveis

nota

Configurações gerais para todos os scrapers

Nome do parâmetro	Valor padrão	Descrição
Good status	`All`	Escolha de qual resposta do servidor será considerada bem-sucedida. Se houver outra resposta do servidor durante a extração de dados, a consulta será repetida com outro proxy.
Good code RegEx		Possibilidade de especificar uma expressão regular para verificar o código de resposta.
Method	`GET`	Método de requisição.
POST body		Conteúdo para enviar ao servidor ao usar o método POST. Suporta as variáveis `$query` – URL da consulta, `$query.orig` – consulta original e `$pagenum` - número da página ao usar a opção Use Pages.
Cookies		Possibilidade de especificar cookies para a requisição.
User agent	`Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)`	Cabeçalho User-Agent ao solicitar páginas.
Additional headers		Possibilidade de especificar cabeçalhos de requisição personalizados com suporte aos recursos do processador de modelos e uso de variáveis do construtor de consultas.
Read only headers	`☐`	Ler apenas cabeçalhos. Em alguns casos, permite economizar tráfego se não houver necessidade de processar o conteúdo.
Detect charset on content	`☐`	Reconhecer a codificação com base no conteúdo da página.
Emulate browser headers	`☐`	Emular cabeçalhos de navegador.
Max redirects count	`7`	Número máximo de redirecionamentos que o scraper seguirá.
Max cookies count	`16`	Número máximo de cookies para salvar.
Bypass CloudFlare	`☑`	Contorno automático da verificação CloudFlare.
Follow common redirects	`☑`	Permite fazer redirecionamentos http <-> https e www.domain <-> domain dentro do mesmo domínio, ignorando o limite Max redirects count.
Engine	`HTTP (Fast, JavaScript Disabled)`	Permite escolher o motor HTTP (mais rápido, sem JavaScript) ou Chrome (mais lento, JavaScript ativado).
Chrome Headless	`☐`	Se a opção estiver ativada, o navegador não será exibido.
Chrome DevTools	`☑`	Permite usar ferramentas de depuração do Chromium.
Chrome Log Proxy connections	`☑`	Se a opção estiver ativada, informações sobre as conexões do chrome serão exibidas no log.
Chrome Wait Until	`networkidle2`	Define quando a página é considerada carregada. Mais detalhes sobre os valores.
Use HTTP/2 transport	`☐`	Define se deve usar HTTP/2 em vez de HTTP/1.1. Por exemplo, Google e Majestic banem imediatamente se usar HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)	`☐`	Contorno de CF via Chrome.
Bypass CloudFlare with Chrome Max Pages		Número máx. de páginas ao contornar CF via Chrome.

Visão geral do Scraper​

Dados coletados​

Recursos​

Variantes de uso​

Consultas​

Opções de exibição de resultados​

Saída padrão​

Configurações possíveis​