HTML::TextExtractor::LangDetect - Detecção de idioma da página
Visão geral do Scraper

HTML::TextExtractor::LangDetect determina o idioma do site, bem como a precisão da detecção em porcentagem. Suporta extração de dados em múltiplas páginas e navegação por páginas internas do site até a profundidade especificada, o que permite percorrer todas as páginas do site, coletando links internos e externos. Possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas cujos dados são carregados por scripts. É capaz de atingir velocidades de até 2000 requisições por minuto – isso são 120 000 links por hora.Dados coletados
- Determina o idioma do site
- Precisão da detecção em %
Recursos
- Extração de dados em múltiplas páginas (navegação por páginas)
- Suporta compressão gzip/deflate/brotli
- Detecção e conversão de codificações de sites para UTF-8
- Contorno de proteção CloudFlare
- Escolha do motor (HTTP ou Chrome)
- Detecção do idioma do site sem o uso de serviços de terceiros
- Precisão da detecção em %
Variantes de uso
- Seleção de domínios com um idioma de conteúdo específico
Consultas
Como consultas, é necessário indicar uma lista de sites, por exemplo:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Opções de exibição de resultados
O A-Parser suporta formatação flexível de resultados graças ao processador de modelos integrado Template Toolkit, o que permite exibir resultados em forma arbitrária, bem como estruturada, por exemplo, CSV ou JSON
Saída padrão
Formato do resultado:
$query: $lang\n
Exemplo de resultado:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Configurações possíveis
| Nome do parâmetro | Valor padrão | Descrição |
|---|---|---|
| Good status | All | Escolha de qual resposta do servidor será considerada bem-sucedida. Se houver outra resposta do servidor durante a extração de dados, a consulta será repetida com outro proxy. |
| Good code RegEx | Possibilidade de especificar uma expressão regular para verificar o código de resposta. | |
| Method | GET | Método de requisição. |
| POST body | Conteúdo para enviar ao servidor ao usar o método POST. Suporta as variáveis $query – URL da consulta, $query.orig – consulta original e $pagenum - número da página ao usar a opção Use Pages. | |
| Cookies | Possibilidade de especificar cookies para a requisição. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | Cabeçalho User-Agent ao solicitar páginas. |
| Additional headers | Possibilidade de especificar cabeçalhos de requisição personalizados com suporte aos recursos do processador de modelos e uso de variáveis do construtor de consultas. | |
| Read only headers | ☐ | Ler apenas cabeçalhos. Em alguns casos, permite economizar tráfego se não houver necessidade de processar o conteúdo. |
| Detect charset on content | ☐ | Reconhecer a codificação com base no conteúdo da página. |
| Emulate browser headers | ☐ | Emular cabeçalhos de navegador. |
| Max redirects count | 7 | Número máximo de redirecionamentos que o scraper seguirá. |
| Max cookies count | 16 | Número máximo de cookies para salvar. |
| Bypass CloudFlare | ☑ | Contorno automático da verificação CloudFlare. |
| Follow common redirects | ☑ | Permite fazer redirecionamentos http <-> https e www.domain <-> domain dentro do mesmo domínio, ignorando o limite Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Permite escolher o motor HTTP (mais rápido, sem JavaScript) ou Chrome (mais lento, JavaScript ativado). |
| Chrome Headless | ☐ | Se a opção estiver ativada, o navegador não será exibido. |
| Chrome DevTools | ☑ | Permite usar ferramentas de depuração do Chromium. |
| Chrome Log Proxy connections | ☑ | Se a opção estiver ativada, informações sobre as conexões do chrome serão exibidas no log. |
| Chrome Wait Until | networkidle2 | Define quando a página é considerada carregada. Mais detalhes sobre os valores. |
| Use HTTP/2 transport | ☐ | Define se deve usar HTTP/2 em vez de HTTP/1.1. Por exemplo, Google e Majestic banem imediatamente se usar HTTP/1.1. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Contorno de CF via Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Número máx. de páginas ao contornar CF via Chrome. |