HTML::EmailExtractor - Gegevensextractie van e-mailadressen van websites

Overzicht van de scraper

HTML::EmailExtractor verzamelt e-mailadressen van de opgegeven pagina's. Ondersteunt navigatie door interne pagina's van de site tot een opgegeven diepte, waardoor u alle pagina's van de site kunt doorlopen en interne en externe links kunt verzamelen. De e-mail scraper heeft ingebouwde middelen om de beveiliging van CloudFlare te omzeilen en biedt ook de mogelijkheid om Chrome te kiezen als engine voor het scrapen van e-mails van pagina's waarvan de gegevens door scripts worden geladen. Kan een snelheid bereiken tot 250 verzoeken per minuut – dat zijn 15 000 links per uur.

Ga naar DEMO Koop A-Parser Pro ($299)

Use cases voor de scraper

E-mails scrapen van een site met diepe paginadoorgang tot een opgegeven limiet

Voeg de optie Parse to level toe en kies de gewenste waarde (limiet) in de lijst.
Vink in de sectie Queries de optie Unique queries aan.
Vink in de sectie Results de optie Unique string aan.
Geef als query de link op naar de website waarvan e-mails gescrapt moeten worden.

Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

tip

Zie ook:

E-mails scrapen op basis van een lijst met sites met diepe paginadoorgang per site

Voeg de optie Parse to level toe en kies de gewenste waarde (limiet) in de lijst.
Vink in de sectie Queries de optie Unique queries aan.
Vink in de sectie Results de optie Unique string aan.
Geef als query de links op naar de websites waarvan e-mails gescrapt moeten worden, of kies bij Queries from voor File en upload een bestand met de lijst met sites.

Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

tip

Zie ook:

E-mails scrapen op basis van een lijst met links

Vink in de sectie Queries de optie Unique queries aan.
Vink in de sectie Results de optie Unique string aan.
Geef als query de links op waarvan e-mails gescrapt moeten worden, of kies bij Queries from voor File en upload een bestand met de lijst met links.

Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

tip

Zie ook:

Verzameld gegevens

Voorbeeld van verzamelde gegevens

E-mailadressen
Totaal aantal adressen op de pagina
Array met alle verzamelde pagina's (gebruikt bij de optie Use Pages)

Mogelijkheden

Gegevens verzamelen van meerdere pagina's (navigatie door pagina's)
Navigatie door interne pagina's van de site tot een opgegeven diepte (optie Parse to level) – hiermee kunt u alle pagina's van de site doorlopen en interne en externe links verzamelen
Detectie van follow links voor koppelingen
Limiet voor paginanavigatie (optie Follow links limit)
Mogelijkheid om subdomeinen als interne pagina's van de site te beschouwen
Ondersteunt compressie gzip/deflate/brotli
Detectie en conversie van website-coderingen naar UTF-8
Omzeilen van CloudFlare-beveiliging
Keuze van engine (HTTP of Chrome)
Ondersteuning voor alle functionaliteit van HTML::LinkExtractor

Toepassingen

Scrapen van e-mailadressen
Weergave van het aantal e-mailadressen

Queries

Als queries moeten links naar pagina's worden opgegeven, bijvoorbeeld:

https://a-parser.com/pages/support/

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in elke gewenste vorm kunnen worden uitgevoerd, inclusief gestructureerde formaten zoals CSV of JSON

Weergave van het aantal e-mailadressen

Resultaatformaat:

$mailcount

Voorbeeld resultaat:

Mogelijke instellingen

opmerking

Algemene instellingen voor alle scrapers
Algemeen voor alle scrapers die via het HTTP-protocol werken

Naam parameter	Standaardwaarde	Beschrijving
Good status	`All`	Selectie van welk antwoord van de server als succesvol wordt beschouwd. Als er tijdens het scrapen een ander antwoord van de server komt, wordt de query herhaald met een andere proxy
Good code RegEx		Mogelijkheid om een reguliere expressie op te geven voor het controleren van de responscode
Ban Proxy Code RegEx		Mogelijkheid om proxy's tijdelijk te blokkeren (Proxy ban time) op basis van de serverresponscode
Method	`GET`	Verzoekmethode
POST body		Inhoud om naar de server te sturen bij gebruik van de POST-methode. Ondersteunt variabelen `$query` – query-URL, `$query.orig` – oorspronkelijke query en `$pagenum` - paginanummer bij gebruik van de optie Use Pages.
Cookies		Mogelijkheid om cookies op te geven voor de query.
User agent	`_Automatisch ingevuld met de user-agent van de actuele Chrome-versie_`	De User-Agent header bij het opvragen van pagina's
Additional headers		Mogelijkheid om aangepaste query-headers op te geven met ondersteuning voor de sjabloon-engine en gebruik van variabelen uit de query-constructor
Read only headers	`☐`	Alleen headers lezen. In sommige gevallen bespaart dit verkeer als het niet nodig is om de inhoud te verwerken
Detect charset on content	`☐`	Codering herkennen op basis van de pagina-inhoud
Emulate browser headers	`☐`	Browser-headers emuleren
Max redirects count	`0`	Maximaal aantal redirects dat de scraper zal volgen
Follow common redirects	`☑`	Maakt redirects mogelijk tussen http <-> https en www.domain <-> domain binnen hetzelfde domein, buiten de Max redirects count limiet om
Max cookies count	`16`	Maximaal aantal cookies om op te slaan
Engine	`HTTP (Fast, JavaScript Disabled)`	Hiermee kunt u de engine kiezen: HTTP (sneller, zonder JavaScript) of Chrome (langzamer, JavaScript ingeschakeld)
Chrome Headless	`☐`	Als deze optie is ingeschakeld, wordt de browser niet weergegeven
Chrome DevTools	`☑`	Maakt het gebruik van Chromium-ontwikkeltools mogelijk
Chrome Log Proxy connections	`☑`	Als deze optie is ingeschakeld, wordt informatie over Chrome-verbindingen in het logboek weergegeven
Chrome Wait Until	`networkidle2`	Bepaalt wanneer een pagina als geladen wordt beschouwd. Meer over de waarden.
Use HTTP/2 transport	`☐`	Bepaalt of HTTP/2 moet worden gebruikt in plaats van HTTP/1.1. Google en Majestic blokkeren bijvoorbeeld onmiddellijk bij gebruik van HTTP/1.1.
Don't verify TLS certs	`☐`	TLS-certificaatvalidatie uitschakelen
Randomize TLS Fingerprint	`☐`	Deze optie maakt het mogelijk om blokkades van sites op basis van TLS-fingerprinting te omzeilen
Bypass CloudFlare	`☑`	Automatische omzeiling van CloudFlare-controle
Bypass CloudFlare with Chrome(Experimental)	`☐`	CF omzeilen via Chrome
Bypass CloudFlare with Chrome Max Pages	`20`	Max. aantal pagina's bij het omzeilen van CF via Chrome
Subdomains are internal	`☐`	Subdomeinen als interne links beschouwen
Follow links	`Internal only`	Welke links te volgen
Follow links limit	`0`	Limiet voor Follow links, toegepast op elk uniek domein
Skip comment blocks	`☐`	Commentaarblokken overslaan
Search Cloudflare protected e-mails	`☑`	Cloudflare protected e-mails scrapen.
Skip non-HTML blocks	`☑`	Geen e-mailadressen verzamelen in tags (script, style, comment, etc.).
Skip meta tags	`☐`	Geen e-mailadressen verzamelen in meta-tags
Search URL encoded e-mails	`☐`	Verzamelen van URL-gecodeerde e-mails

Overzicht van de scraper​

Use cases voor de scraper​

E-mails scrapen van een site met diepe paginadoorgang tot een opgegeven limiet​

E-mails scrapen op basis van een lijst met sites met diepe paginadoorgang per site​

E-mails scrapen op basis van een lijst met links​

Verzameld gegevens​

Mogelijkheden​

Toepassingen​

Queries​

Voorbeelden van resultaatuitvoer​

Weergave van het aantal e-mailadressen​

Mogelijke instellingen​

Overzicht van de scraper

Use cases voor de scraper

E-mails scrapen van een site met diepe paginadoorgang tot een opgegeven limiet

E-mails scrapen op basis van een lijst met sites met diepe paginadoorgang per site

E-mails scrapen op basis van een lijst met links

Verzameld gegevens

Mogelijkheden

Toepassingen

Queries

Voorbeelden van resultaatuitvoer

Weergave van het aantal e-mailadressen

Mogelijke instellingen