Ga naar de hoofdinhoud

HTML::EmailExtractor - Gegevensextractie van e-mailadressen van websites

Overzicht van de scraper

Overzicht van de scraperHTML::EmailExtractorHTML::EmailExtractor verzamelt e-mailadressen van de opgegeven pagina's. Ondersteunt navigatie door interne pagina's van de site tot een opgegeven diepte, waardoor u alle pagina's van de site kunt doorlopen en interne en externe links kunt verzamelen. De e-mail scraper heeft ingebouwde middelen om de beveiliging van CloudFlare te omzeilen en biedt ook de mogelijkheid om Chrome te kiezen als engine voor het scrapen van e-mails van pagina's waarvan de gegevens door scripts worden geladen. Kan een snelheid bereiken tot 250 verzoeken per minuut – dat zijn 15 000 links per uur.

Use cases voor de scraper

E-mails scrapen van een site met diepe paginadoorgang tot een opgegeven limiet

E-mails scrapen van een site met diepe paginadoorgang tot een opgegeven limiet
  1. Voeg de optie Parse to level toe en kies de gewenste waarde (limiet) in de lijst.
  2. Vink in de sectie Queries de optie Unique queries aan.
  3. Vink in de sectie Results de optie Unique string aan.
  4. Geef als query de link op naar de website waarvan e-mails gescrapt moeten worden.
Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

E-mails scrapen op basis van een lijst met sites met diepe paginadoorgang per site

E-mails scrapen op basis van een lijst met sites met diepe paginadoorgang per site
  1. Voeg de optie Parse to level toe en kies de gewenste waarde (limiet) in de lijst.
  2. Vink in de sectie Queries de optie Unique queries aan.
  3. Vink in de sectie Results de optie Unique string aan.
  4. Geef als query de links op naar de websites waarvan e-mails gescrapt moeten worden, of kies bij Queries from voor File en upload een bestand met de lijst met sites.
Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

E-mails scrapen op basis van een lijst met links

E-mails scrapen op basis van een lijst met links
  1. Vink in de sectie Queries de optie Unique queries aan.
  2. Vink in de sectie Results de optie Unique string aan.
  3. Geef als query de links op waarvan e-mails gescrapt moeten worden, of kies bij Queries from voor File en upload een bestand met de lijst met links.
Voorbeeld downloaden

Hoe een preset te importeren in A-Parser

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

Verzameld gegevens

Voorbeeld van verzamelde gegevens

  • E-mailadressen
  • Totaal aantal adressen op de pagina
  • Array met alle verzamelde pagina's (gebruikt bij de optie Use Pages)

Mogelijkheden

  • Gegevens verzamelen van meerdere pagina's (navigatie door pagina's)
  • Navigatie door interne pagina's van de site tot een opgegeven diepte (optie Parse to level) – hiermee kunt u alle pagina's van de site doorlopen en interne en externe links verzamelen
  • Detectie van follow links voor koppelingen
  • Limiet voor paginanavigatie (optie Follow links limit)
  • Mogelijkheid om subdomeinen als interne pagina's van de site te beschouwen
  • Ondersteunt compressie gzip/deflate/brotli
  • Detectie en conversie van website-coderingen naar UTF-8
  • Omzeilen van CloudFlare-beveiliging
  • Keuze van engine (HTTP of Chrome)
  • Ondersteuning voor alle functionaliteit van HTML::LinkExtractorHTML::LinkExtractor

Toepassingen

  • Scrapen van e-mailadressen
  • Weergave van het aantal e-mailadressen

Queries

Als queries moeten links naar pagina's worden opgegeven, bijvoorbeeld:

https://a-parser.com/pages/support/

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in elke gewenste vorm kunnen worden uitgevoerd, inclusief gestructureerde formaten zoals CSV of JSON

Weergave van het aantal e-mailadressen

Resultaatformaat:

$mailcount

Voorbeeld resultaat:

4

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
Good statusAllSelectie van welk antwoord van de server als succesvol wordt beschouwd. Als er tijdens het scrapen een ander antwoord van de server komt, wordt de query herhaald met een andere proxy
Good code RegExMogelijkheid om een reguliere expressie op te geven voor het controleren van de responscode
Ban Proxy Code RegExMogelijkheid om proxy's tijdelijk te blokkeren (Proxy ban time) op basis van de serverresponscode
MethodGETVerzoekmethode
POST bodyInhoud om naar de server te sturen bij gebruik van de POST-methode. Ondersteunt variabelen $query – query-URL, $query.orig – oorspronkelijke query en $pagenum - paginanummer bij gebruik van de optie Use Pages.
CookiesMogelijkheid om cookies op te geven voor de query.
User agent_Automatisch ingevuld met de user-agent van de actuele Chrome-versie_De User-Agent header bij het opvragen van pagina's
Additional headersMogelijkheid om aangepaste query-headers op te geven met ondersteuning voor de sjabloon-engine en gebruik van variabelen uit de query-constructor
Read only headersAlleen headers lezen. In sommige gevallen bespaart dit verkeer als het niet nodig is om de inhoud te verwerken
Detect charset on contentCodering herkennen op basis van de pagina-inhoud
Emulate browser headersBrowser-headers emuleren
Max redirects count0Maximaal aantal redirects dat de scraper zal volgen
Follow common redirectsMaakt redirects mogelijk tussen http <-> https en www.domain <-> domain binnen hetzelfde domein, buiten de Max redirects count limiet om
Max cookies count16Maximaal aantal cookies om op te slaan
EngineHTTP (Fast, JavaScript Disabled)Hiermee kunt u de engine kiezen: HTTP (sneller, zonder JavaScript) of Chrome (langzamer, JavaScript ingeschakeld)
Chrome HeadlessAls deze optie is ingeschakeld, wordt de browser niet weergegeven
Chrome DevToolsMaakt het gebruik van Chromium-ontwikkeltools mogelijk
Chrome Log Proxy connectionsAls deze optie is ingeschakeld, wordt informatie over Chrome-verbindingen in het logboek weergegeven
Chrome Wait Untilnetworkidle2Bepaalt wanneer een pagina als geladen wordt beschouwd. Meer over de waarden.
Use HTTP/2 transportBepaalt of HTTP/2 moet worden gebruikt in plaats van HTTP/1.1. Google en Majestic blokkeren bijvoorbeeld onmiddellijk bij gebruik van HTTP/1.1.
Don't verify TLS certsTLS-certificaatvalidatie uitschakelen
Randomize TLS FingerprintDeze optie maakt het mogelijk om blokkades van sites op basis van TLS-fingerprinting te omzeilen
Bypass CloudFlareAutomatische omzeiling van CloudFlare-controle
Bypass CloudFlare with Chrome(Experimental)CF omzeilen via Chrome
Bypass CloudFlare with Chrome Max Pages20Max. aantal pagina's bij het omzeilen van CF via Chrome
Subdomains are internalSubdomeinen als interne links beschouwen
Follow linksInternal onlyWelke links te volgen
Follow links limit0Limiet voor Follow links, toegepast op elk uniek domein
Skip comment blocksCommentaarblokken overslaan
Search Cloudflare protected e-mailsCloudflare protected e-mails scrapen.
Skip non-HTML blocksGeen e-mailadressen verzamelen in tags (script, style, comment, etc.).
Skip meta tagsGeen e-mailadressen verzamelen in meta-tags
Search URL encoded e-mailsVerzamelen van URL-gecodeerde e-mails