Pular para o conteúdo principal

HTML::TextExtractor::LangDetect - Detecção de idioma da página

Visão geral do Scraper

Visão geral do ScraperHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect determina o idioma do site, bem como a precisão da detecção em porcentagem. Suporta extração de dados em múltiplas páginas e navegação por páginas internas do site até a profundidade especificada, o que permite percorrer todas as páginas do site, coletando links internos e externos. Possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas cujos dados são carregados por scripts. É capaz de atingir velocidades de até 2000 requisições por minuto – isso são 120 000 links por hora.

Dados coletados

  • Determina o idioma do site
  • Precisão da detecção em %

Recursos

  • Extração de dados em múltiplas páginas (navegação por páginas)
  • Suporta compressão gzip/deflate/brotli
  • Detecção e conversão de codificações de sites para UTF-8
  • Contorno de proteção CloudFlare
  • Escolha do motor (HTTP ou Chrome)
  • Detecção do idioma do site sem o uso de serviços de terceiros
  • Precisão da detecção em %

Variantes de uso

  • Seleção de domínios com um idioma de conteúdo específico

Consultas

Como consultas, é necessário indicar uma lista de sites, por exemplo:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Opções de exibição de resultados

O A-Parser suporta formatação flexível de resultados graças ao processador de modelos integrado Template Toolkit, o que permite exibir resultados em forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON

Saída padrão

Formato do resultado:

$query: $lang\n

Exemplo de resultado:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Configurações possíveis

Nome do parâmetroValor padrãoDescrição
Good statusAllEscolha de qual resposta do servidor será considerada bem-sucedida. Se houver outra resposta do servidor durante a extração de dados, a consulta será repetida com outro proxy.
Good code RegExPossibilidade de especificar uma expressão regular para verificar o código de resposta.
MethodGETMétodo de requisição.
POST bodyConteúdo para enviar ao servidor ao usar o método POST. Suporta as variáveis $query – URL da consulta, $query.orig – consulta original e $pagenum - número da página ao usar a opção Use Pages.
CookiesPossibilidade de especificar cookies para a requisição.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Cabeçalho User-Agent ao solicitar páginas.
Additional headersPossibilidade de especificar cabeçalhos de requisição personalizados com suporte aos recursos do processador de modelos e uso de variáveis do construtor de consultas.
Read only headersLer apenas cabeçalhos. Em alguns casos, permite economizar tráfego se não houver necessidade de processar o conteúdo.
Detect charset on contentReconhecer a codificação com base no conteúdo da página.
Emulate browser headersEmular cabeçalhos de navegador.
Max redirects count7Número máximo de redirecionamentos que o scraper seguirá.
Max cookies count16Número máximo de cookies para salvar.
Bypass CloudFlareContorno automático da verificação CloudFlare.
Follow common redirectsPermite fazer redirecionamentos http <-> https e www.domain <-> domain dentro do mesmo domínio, ignorando o limite Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Permite escolher o motor HTTP (mais rápido, sem JavaScript) ou Chrome (mais lento, JavaScript ativado).
Chrome HeadlessSe a opção estiver ativada, o navegador não será exibido.
Chrome DevToolsPermite usar ferramentas de depuração do Chromium.
Chrome Log Proxy connectionsSe a opção estiver ativada, informações sobre as conexões do chrome serão exibidas no log.
Chrome Wait Untilnetworkidle2Define quando a página é considerada carregada. Mais detalhes sobre os valores.
Use HTTP/2 transportDefine se deve usar HTTP/2 em vez de HTTP/1.1. Por exemplo, Google e Majestic banem imediatamente se usar HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)Contorno de CF via Chrome.
Bypass CloudFlare with Chrome Max PagesNúmero máx. de páginas ao contornar CF via Chrome.