HTML::EmailExtractor - Dataskrapning av e-postadresser från webbsidor
Översikt av scrapern

HTML::EmailExtractor samlar in e-postadresser från angivna sidor. Stöder navigering genom interna sidor på webbplatsen upp till angivet djup, vilket gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar. E-post-scrapern har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjlighet att välja Chrome som motor för dataskrapning av e-post från sidor där data laddas via skript. Kan uppnå en hastighet på upp till 250 förfrågningar per minut – vilket är 15 000 länkar per timme.Användningsfall för scrapern
Dataskrapning av e-post från en webbplats med djupgående genomsökning upp till angiven gräns

- Lägg till alternativet Parse to level, välj önskat värde i listan (gräns).
- I avsnittet Queries (Frågor), markera alternativet
Unique queries(Unika frågor). - I avsnittet Results (Resultat), markera alternativet
Unique string(Dubblettkontroll per rad). - Ange länken till webbplatsen som du vill skrapa e-postadresser från som sökfråga.
Ladda ner exempel
Hur man importerar ett exempel till A-Parser
eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr
Dataskrapning av e-post från en databas med webbplatser med djupgående genomsökning av varje webbplats upp till angiven gräns

- Lägg till alternativet Parse to level, välj önskat värde i listan (gräns).
- I avsnittet Queries (Frågor), markera alternativet
Unique queries(Unika frågor). - I avsnittet Results (Resultat), markera alternativet
Unique string(Dubblettkontroll per rad). - Ange länkarna till webbplatserna som du vill skrapa e-postadresser från som sökfrågor, eller välj
File(Fil) i Queries from (Frågor från) och ladda upp en fil med databasen över webbplatser.
Ladda ner exempel
Hur man importerar ett exempel till A-Parser
eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr
Dataskrapning av e-post från en databas med länkar

- I avsnittet Queries (Frågor), markera alternativet
Unique queries(Unika frågor). - I avsnittet Results (Resultat), markera alternativet
Unique string(Dubblettkontroll per rad). - Ange länkarna som du vill skrapa e-postadresser från som sökfrågor, eller välj
File(Fil) i Queries from (Frågor från) och ladda upp en fil med databasen över länkar.
Ladda ner exempel
Hur man importerar ett exempel till A-Parser
eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==
Insamlade data

- E-postadresser
- Totalt antal adresser på sidan
- Array med alla insamlade sidor (används när alternativet Use Pages används)
Funktioner
- Dataskrapning av flera sidor (navigering genom sidor)
- Navigering genom interna sidor på webbplatsen upp till angivet djup (alternativet Parse to level) – gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar
- Identifiering av follow-länkar för länkar
- Gräns för sidnavigering (alternativet Follow links limit)
- Möjlighet att ange att underdomäner ska räknas som interna sidor på webbplatsen
- Stöder komprimering gzip/deflate/brotli
- Identifiering och konvertering av webbplatsers kodning till UTF-8
- Förbigång av CloudFlare-skydd
- Val av motor (HTTP eller Chrome)
- Stöd för all funktionalitet i
HTML::LinkExtractor
Användningsområden
- Dataskrapning av e-postadresser
- Export av antal e-postadresser
Frågor
Som frågor måste länkar till sidor anges, till exempel:
https://a-parser.com/pages/support/
Exempel på resultatutmatning
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON
Utmatning av antal e-postadresser
Resultatformat:
$mailcount
Exempel på resultat:
4
Möjliga inställningar
anteckning
| Parameternamn | Standardvärde | Beskrivning |
|---|---|---|
| Good status | All | Val av vilket svar från servern som ska anses vara lyckat. Om ett annat svar erhålls vid dataskrapning kommer begäran att upprepas med en annan proxy |
| Good code RegEx | Möjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden | |
| Ban Proxy Code RegEx | Möjlighet att blockera proxyn under en viss tid (Proxy ban time) baserat på serverns svarskod | |
| Method | GET | Metod för begäran |
| POST body | Innehåll som ska skickas till servern när POST-metoden används. Stöder variablerna $query – URL för begäran, $query.orig – ursprunglig fråga och $pagenum - sidnummer när alternativet Use Pages används. | |
| Cookies | Möjlighet att ange cookies för begäran. | |
| User agent | _Automatiskt podstavyayetsya user-agent aktual'noy versii Chrome_ | Headern User-Agent vid begäran av sidor |
| Additional headers | Möjlighet att ange godtyckliga headers för begäran med stöd för mallmotorns funktioner och användning av variabler från frågekonstruktören | |
| Read only headers | ☐ | Läs endast headers. I vissa fall sparar detta trafik om det inte finns något behov av att bearbeta innehållet |
| Detect charset on content | ☐ | Identifiera kodning baserat på sidans innehåll |
| Emulate browser headers | ☐ | Emulera webbläsarheaders |
| Max redirects count | 0 | Maximalt antal omdirigeringar som scrapern kommer att följa |
| Follow common redirects | ☑ | Tillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän, förbi gränsen för Max redirects count |
| Max cookies count | 16 | Maximalt antal cookies som ska sparas |
| Engine | HTTP (Fast, JavaScript Disabled) | Gör det möjligt att välja motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat) |
| Chrome Headless | ☐ | Om alternativet är aktiverat kommer webbläsaren inte att visas |
| Chrome DevTools | ☑ | Tillåter användning av verktyg för felsökning av Chromium |
| Chrome Log Proxy connections | ☑ | Om alternativet är aktiverat kommer information om Chrome-anslutningar att visas i loggen |
| Chrome Wait Until | networkidle2 | Definierar när sidan anses vara laddad. Mer om värdena. |
| Use HTTP/2 transport | ☐ | Definierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel blockerar Google och Majestic omedelbart om HTTP/1.1 används. |
| Don't verify TLS certs | ☐ | Inaktivera validering av TLS-certifikat |
| Randomize TLS Fingerprint | ☐ | Detta alternativ gör det möjligt att kringgå blockering av webbplatser baserat på TLS-fingeravtryck |
| Bypass CloudFlare | ☑ | Automatisk förbigång av CloudFlare-kontroll |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Förbigång av CF via Chrome |
| Bypass CloudFlare with Chrome Max Pages | 20 | Max antal sidor vid förbigång av CF via Chrome |
| Subdomains are internal | ☐ | Om underdomäner ska räknas som interna länkar |
| Follow links | Internal only | Vilka länkar som ska följas |
| Follow links limit | 0 | Gräns för Follow links, tillämpas på varje unik domän |
| Skip comment blocks | ☐ | Om kommentarblock ska hoppas över |
| Search Cloudflare protected e-mails | ☑ | Om Cloudflare-skyddade e-postadresser ska skrapas. |
| Skip non-HTML blocks | ☑ | Samla inte in e-postadresser i taggar (script, style, comment etc.). |
| Skip meta tags | ☐ | Samla inte in e-postadresser i meta-taggar |
| Search URL encoded e-mails | ☐ | Insamling av URL-kodade e-postadresser |