Hoppa till huvudinnehåll

HTML::EmailExtractor - Dataskrapning av e-postadresser från webbsidor

Översikt av scrapern

Översikt av scrapernHTML::EmailExtractorHTML::EmailExtractor samlar in e-postadresser från angivna sidor. Stöder navigering genom interna sidor på webbplatsen upp till angivet djup, vilket gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar. E-post-scrapern har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjlighet att välja Chrome som motor för dataskrapning av e-post från sidor där data laddas via skript. Kan uppnå en hastighet på upp till 250 förfrågningar per minut – vilket är 15 000 länkar per timme.

Användningsfall för scrapern

Dataskrapning av e-post från en webbplats med djupgående genomsökning upp till angiven gräns

Dataskrapning av e-post från en webbplats med djupgående genomsökning upp till angiven gräns
  1. Lägg till alternativet Parse to level, välj önskat värde i listan (gräns).
  2. I avsnittet Queries (Frågor), markera alternativet Unique queries (Unika frågor).
  3. I avsnittet Results (Resultat), markera alternativet Unique string (Dubblettkontroll per rad).
  4. Ange länken till webbplatsen som du vill skrapa e-postadresser från som sökfråga.
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Dataskrapning av e-post från en databas med webbplatser med djupgående genomsökning av varje webbplats upp till angiven gräns

Dataskrapning av e-post från en databas med webbplatser med djupgående genomsökning av varje webbplats upp till angiven gräns
  1. Lägg till alternativet Parse to level, välj önskat värde i listan (gräns).
  2. I avsnittet Queries (Frågor), markera alternativet Unique queries (Unika frågor).
  3. I avsnittet Results (Resultat), markera alternativet Unique string (Dubblettkontroll per rad).
  4. Ange länkarna till webbplatserna som du vill skrapa e-postadresser från som sökfrågor, eller välj File (Fil) i Queries from (Frågor från) och ladda upp en fil med databasen över webbplatser.
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Dataskrapning av e-post från en databas med länkar

Dataskrapning av e-post från en databas med länkar
  1. I avsnittet Queries (Frågor), markera alternativet Unique queries (Unika frågor).
  2. I avsnittet Results (Resultat), markera alternativet Unique string (Dubblettkontroll per rad).
  3. Ange länkarna som du vill skrapa e-postadresser från som sökfrågor, eller välj File (Fil) i Queries from (Frågor från) och ladda upp en fil med databasen över länkar.
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

Insamlade data

Exempel på insamlade data

  • E-postadresser
  • Totalt antal adresser på sidan
  • Array med alla insamlade sidor (används när alternativet Use Pages används)

Funktioner

  • Dataskrapning av flera sidor (navigering genom sidor)
  • Navigering genom interna sidor på webbplatsen upp till angivet djup (alternativet Parse to level) – gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar
  • Identifiering av follow-länkar för länkar
  • Gräns för sidnavigering (alternativet Follow links limit)
  • Möjlighet att ange att underdomäner ska räknas som interna sidor på webbplatsen
  • Stöder komprimering gzip/deflate/brotli
  • Identifiering och konvertering av webbplatsers kodning till UTF-8
  • Förbigång av CloudFlare-skydd
  • Val av motor (HTTP eller Chrome)
  • Stöd för all funktionalitet i HTML::LinkExtractorHTML::LinkExtractor

Användningsområden

  • Dataskrapning av e-postadresser
  • Export av antal e-postadresser

Frågor

Som frågor måste länkar till sidor anges, till exempel:

https://a-parser.com/pages/support/

Exempel på resultatutmatning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Utmatning av antal e-postadresser

Resultatformat:

$mailcount

Exempel på resultat:

4

Möjliga inställningar

ParameternamnStandardvärdeBeskrivning
Good statusAllVal av vilket svar från servern som ska anses vara lyckat. Om ett annat svar erhålls vid dataskrapning kommer begäran att upprepas med en annan proxy
Good code RegExMöjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden
Ban Proxy Code RegExMöjlighet att blockera proxyn under en viss tid (Proxy ban time) baserat på serverns svarskod
MethodGETMetod för begäran
POST bodyInnehåll som ska skickas till servern när POST-metoden används. Stöder variablerna $query – URL för begäran, $query.orig – ursprunglig fråga och $pagenum - sidnummer när alternativet Use Pages används.
CookiesMöjlighet att ange cookies för begäran.
User agent_Automatiskt podstavyayetsya user-agent aktual'noy versii Chrome_Headern User-Agent vid begäran av sidor
Additional headersMöjlighet att ange godtyckliga headers för begäran med stöd för mallmotorns funktioner och användning av variabler från frågekonstruktören
Read only headersLäs endast headers. I vissa fall sparar detta trafik om det inte finns något behov av att bearbeta innehållet
Detect charset on contentIdentifiera kodning baserat på sidans innehåll
Emulate browser headersEmulera webbläsarheaders
Max redirects count0Maximalt antal omdirigeringar som scrapern kommer att följa
Follow common redirectsTillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän, förbi gränsen för Max redirects count
Max cookies count16Maximalt antal cookies som ska sparas
EngineHTTP (Fast, JavaScript Disabled)Gör det möjligt att välja motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat)
Chrome HeadlessOm alternativet är aktiverat kommer webbläsaren inte att visas
Chrome DevToolsTillåter användning av verktyg för felsökning av Chromium
Chrome Log Proxy connectionsOm alternativet är aktiverat kommer information om Chrome-anslutningar att visas i loggen
Chrome Wait Untilnetworkidle2Definierar när sidan anses vara laddad. Mer om värdena.
Use HTTP/2 transportDefinierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel blockerar Google och Majestic omedelbart om HTTP/1.1 används.
Don't verify TLS certsInaktivera validering av TLS-certifikat
Randomize TLS FingerprintDetta alternativ gör det möjligt att kringgå blockering av webbplatser baserat på TLS-fingeravtryck
Bypass CloudFlareAutomatisk förbigång av CloudFlare-kontroll
Bypass CloudFlare with Chrome(Experimental)Förbigång av CF via Chrome
Bypass CloudFlare with Chrome Max Pages20Max antal sidor vid förbigång av CF via Chrome
Subdomains are internalOm underdomäner ska räknas som interna länkar
Follow linksInternal onlyVilka länkar som ska följas
Follow links limit0Gräns för Follow links, tillämpas på varje unik domän
Skip comment blocksOm kommentarblock ska hoppas över
Search Cloudflare protected e-mailsOm Cloudflare-skyddade e-postadresser ska skrapas.
Skip non-HTML blocksSamla inte in e-postadresser i taggar (script, style, comment etc.).
Skip meta tagsSamla inte in e-postadresser i meta-taggar
Search URL encoded e-mailsInsamling av URL-kodade e-postadresser