Pular para o conteúdo principal

HTML::EmailExtractor - Extração de dados de endereços de e-mail de páginas de sites

Visão geral do scraper

Visão geral do scraperHTML::EmailExtractorHTML::EmailExtractor coleta endereços de e-mail das páginas especificadas. Suporta navegação por páginas internas do site até a profundidade especificada, o que permite percorrer todas as páginas do site, coletando links internos e externos. O scraper de e-mail possui meios integrados para contornar a proteção CloudFlare e também a possibilidade de escolher Chrome como motor para extração de e-mails de páginas cujos dados são carregados por scripts. Capaz de atingir velocidades de até 250 consultas por minuto – isso representa 15 000 links por hora.

Casos de uso do scraper

Extração de e-mails de um site com navegação profunda até o limite especificado

Extração de e-mails de um site com navegação profunda até o limite especificado
  1. Adicionar a opção Parse to level, selecionar o valor necessário na lista (limite).
  2. Na seção Queries (Consultas), marcar a opção Unique queries.
  3. Na seção Results (Resultados), marcar a opção Unique string.
  4. Como consulta, indicar o link do site do qual deseja extrair os e-mails.
Baixar exemplo

Como importar um exemplo para o A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Extração de e-mails por base de sites com navegação em cada site até a profundidade do limite especificado

Extração de e-mails por base de sites com navegação profunda em cada site até o limite especificado
  1. Adicionar a opção Parse to level, selecionar o valor necessário (limite) na lista.
  2. Na seção Queries (Consultas), marcar a opção Unique queries.
  3. Na seção Results (Resultados), marcar a opção Unique string.
  4. Como consulta, indicar os links dos sites dos quais é necessário extrair os e-mails, ou em Queries from (Consultas de) indicar File e carregar o arquivo de consultas com a base de sites.
Baixar exemplo

Como importar um exemplo para o A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Extração de e-mails por base de links

Extração de e-mails por base de links
  1. Na seção Queries (Consultas), marcar a opção Unique queries.
  2. Na seção Results (Resultados), marcar a opção Unique string.
  3. Como consulta, indicar os links dos quais é necessário extrair os e-mails, ou em Queries from (Consultas de) indicar File e carregar o arquivo de consultas com a base de links.
Baixar exemplo

Como importar um exemplo para o A-Parser

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

Dados coletados

Exemplo de dados coletados

  • Endereços de e-mail
  • Número total de endereços na página
  • Array com todas as páginas coletadas (usado quando a opção Use Pages está ativa)

Recursos

  • Extração de dados multipáginas (navegação por páginas)
  • Navegação pelas páginas internas do site até a profundidade especificada (opção Parse to level) – permite percorrer todas as páginas do site, coletando links internos e externos
  • Identificação de links follow para os links
  • Limite de navegação por páginas (opção Follow links limit)
  • Possibilidade de especificar para considerar subdomínios como páginas internas do site
  • Suporta compressão gzip/deflate/brotli
  • Identificação e conversão de codificações de sites para UTF-8
  • Contorno de proteção CloudFlare
  • Escolha do motor (HTTP ou Chrome)
  • Suporte a todas as funcionalidades do HTML::LinkExtractorHTML::LinkExtractor

Casos de uso

  • Extração de endereços de e-mail
  • Exibição da quantidade de endereços de e-mail

Consultas

Como consultas, é necessário indicar links para as páginas, por exemplo:

https://a-parser.com/pages/support/

Exemplos de saída de resultados

O A-Parser suporta formatação flexível de resultados graças ao motor de modelos integrado Template Toolkit, o que permite exibir resultados em formato livre, bem como em formato estruturado, como CSV ou JSON

Exibição da quantidade de endereços de e-mail

Formato do resultado:

$mailcount

Exemplo de resultado:

4

Configurações possíveis

Nome do parâmetroValor padrãoDescrição
Good statusAllEscolha de qual resposta do servidor será considerada bem-sucedida. Se houver outra resposta do servidor durante a extração, a consulta será repetida com outro proxy
Good code RegExPossibilidade de especificar uma expressão regular para verificar o código de resposta
Ban Proxy Code RegExPossibilidade de banir o proxy temporariamente (Proxy ban time) com base no código de resposta do servidor
MethodGETMétodo de consulta
POST bodyConteúdo para enviar ao servidor ao usar o método POST. Suporta as variáveis $query – URL da consulta, $query.orig – consulta original e $pagenum - número da página ao usar a opção Use Pages.
CookiesPossibilidade de especificar cookies para a consulta.
User agent_O user-agent da versão atual do Chrome é inserido automaticamente_Cabeçalho User-Agent ao solicitar páginas
Additional headersPossibilidade de especificar cabeçalhos de consulta arbitrários com suporte aos recursos do motor de modelos e uso de variáveis do construtor de consultas
Read only headersLer apenas cabeçalhos. Em alguns casos, permite economizar tráfego se não houver necessidade de processar o conteúdo
Detect charset on contentReconhecer a codificação com base no conteúdo da página
Emulate browser headersEmular cabeçalhos de navegador
Max redirects count0Número máximo de redirecionamentos que o scraper seguirá
Follow common redirectsPermite fazer redirecionamentos http <-> https e www.domain <-> domain dentro do mesmo domínio, ignorando o limite Max redirects count
Max cookies count16Número máximo de cookies para salvar
EngineHTTP (Fast, JavaScript Disabled)Permite escolher o motor HTTP (mais rápido, sem JavaScript) ou Chrome (mais lento, JavaScript ativado)
Chrome HeadlessSe a opção estiver ativada, o navegador não será exibido
Chrome DevToolsPermite usar ferramentas de depuração do Chromium
Chrome Log Proxy connectionsSe a opção estiver ativada, informações sobre as conexões do chrome serão exibidas no log
Chrome Wait Untilnetworkidle2Define quando a página é considerada carregada. Saiba mais sobre os valores.
Use HTTP/2 transportDefine se deve usar HTTP/2 em vez de HTTP/1.1. Por exemplo, Google e Majestic banem imediatamente se usar HTTP/1.1.
Don't verify TLS certsDesativar a validação de certificados TLS
Randomize TLS FingerprintEsta opção permite contornar o banimento de sites por impressão digital TLS
Bypass CloudFlareContorno automático da verificação do CloudFlare
Bypass CloudFlare with Chrome(Experimental)Contorno do CF via Chrome
Bypass CloudFlare with Chrome Max Pages20Número máx. de páginas ao contornar o CF via Chrome
Subdomains are internalConsiderar subdomínios como links internos
Follow linksInternal onlyQuais links seguir
Follow links limit0Limite de Follow links, aplicado a cada domínio único
Skip comment blocksPular blocos de comentários
Search Cloudflare protected e-mailsExtrair e-mails protegidos pelo Cloudflare.
Skip non-HTML blocksNão coletar endereços de e-mail em tags (script, style, comment, etc.).
Skip meta tagsNão coletar endereços de e-mail em meta tags
Search URL encoded e-mailsColeta de e-mails codificados em URL