Ana içeriğe atla

HTML::EmailExtractor - Web sayfalarından email adresi veri çekme

Veri kazıyıcı incelemesi

Veri kazıyıcı incelemesiHTML::EmailExtractorHTML::EmailExtractor belirtilen sayfalardan e-posta adreslerini toplar. İç ve dış bağlantıları toplayarak sitenin tüm sayfalarını taramaya olanak tanıyan, belirtilen derinliğe kadar sitenin iç sayfalarında gezinmeyi destekler. E-posta veri kazıyıcı, yerleşik koruma atlatma araçlarına sahiptir CloudFlare ve ayrıca verilerin scriptlerle yüklendiği sayfalardan e-posta çekmek için motor olarak Chrome seçme imkanı sunar. Dakikada 250 sorguya kadar hıza ulaşabilir – bu da 15 000 bağlantı demektir.

Veri kazıyıcı kullanım örnekleri

Belirtilen limite kadar sayfaların derinliğine inerek bir siteden e-postaları çekme

Belirtilen limite kadar sayfaların derinliğine inerek bir siteden e-postaları çekme
  1. Parse to level (Seviyeye kadar kazı) seçeneğini ekleyin, listeden gerekli değeri (limit) seçin.
  2. Queries (Sorgular) bölümünde Unique queries seçeneğini işaretleyin.
  3. Results (Sonuçlar) bölümünde Unique string seçeneğini işaretleyin.
  4. Sorgu olarak, e-postaların çekilmesi gereken web sitesinin bağlantısını belirtin.
Örneği indir

Örnek A-Parser nasıl aktarılır

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Her bir sitenin belirtilen limit derinliğine kadar taranmasıyla bir site veritabanından e-postaları çekme

Her bir sitenin belirtilen limit derinliğine kadar taranmasıyla bir site veritabanından e-postaları çekme
  1. Parse to level (Seviyeye kadar kazı) seçeneğini ekleyin, listeden gerekli değeri (limit) seçin.
  2. Queries (Sorgular) bölümünde Unique queries seçeneğini işaretleyin.
  3. Results (Sonuçlar) bölümünde Unique string seçeneğini işaretleyin.
  4. Sorgu olarak, e-postaların çekilmesi gereken web sitelerinin bağlantılarını belirtin veya Queries from (Sorgu kaynağı) kısmında File seçeneğini belirleyip site veritabanını içeren sorgu dosyasını yükleyin.
Örneği indir

Örnek A-Parser nasıl aktarılır

eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr

Bağlantı veritabanına göre e-postaları çekme

Bağlantı veritabanına göre e-postaları çekme
  1. Queries (Sorgular) bölümünde Unique queries seçeneğini işaretleyin.
  2. Results (Sonuçlar) bölümünde Unique string seçeneğini işaretleyin.
  3. Sorgu olarak, e-postaların çekilmesi gereken bağlantıları belirtin veya Queries from (Sorgu kaynağı) kısmında File seçeneğini belirleyip bağlantı veritabanını içeren sorgu dosyasını yükleyin.
Örneği indir

Örnek A-Parser nasıl aktarılır

eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==

Toplanan veriler

Toplanan veri örneği

  • E-posta adresleri
  • Sayfadaki toplam e-posta adresi sayısı
  • Toplanan tüm sayfaları içeren dizi (Use Pages seçeneği kullanıldığında kullanılır)

Özellikler

  • Çok sayfalı veri çekme (sayfalar arası geçiş)
  • Belirtilen derinliğe kadar sitenin iç sayfalarında gezinme (Parse to level seçeneği) – iç ve dış bağlantıları toplayarak sitenin tüm sayfalarını taramaya olanak tanır
  • Bağlantılar için follow links tespiti
  • Sayfa geçiş limiti (Follow links limit seçeneği)
  • Alt alan adlarını sitenin iç sayfaları olarak sayma seçeneği
  • gzip/deflate/brotli sıkıştırma desteği
  • Site kodlamalarını tespit etme ve UTF-8'e dönüştürme
  • CloudFlare korumasını atlatma
  • Motor seçimi (HTTP veya Chrome)
  • HTML::LinkExtractorHTML::LinkExtractor'ın tüm işlevselliği için destek

Kullanım senaryoları

  • E-posta adreslerini çekme
  • E-posta adresi sayısını yazdırma

Sorgular

Sorgu olarak sayfa bağlantıları belirtilmelidir, örneğin:

https://a-parser.com/pages/support/

Sonuç çıktı seçenekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçları esnek bir şekilde biçimlendirmenize olanak tanır; bu da sonuçları CSV veya JSON gibi yapılandırılmış formların yanı sıra herhangi bir özel formda yazdırmanızı sağlar.

E-posta adresi sayısını yazdırma

Sonuç formatı:

$mailcount

Örnek sonuç:

4

Olası ayarlar

Parametre adıVarsayılan değerAçıklama
Good statusAllSunucudan gelen hangi yanıtın başarılı sayılacağının seçimi. Veri çekme sırasında sunucudan farklı bir yanıt gelirse, sorgu başka bir proxy ile tekrarlanacaktır
Good code RegExYanıt kodunu kontrol etmek için düzenli ifade belirtme imkanı
Ban Proxy Code RegExSunucu yanıt koduna göre proxyleri geçici olarak yasaklama (Proxy ban time) imkanı
MethodGETSorgu yöntemi
POST bodyPOST yöntemi kullanıldığında sunucuya gönderilecek içerik. $query – sorgu URL'si, $query.orig – orijinal sorgu ve Use Pages seçeneği kullanıldığında $pagenum - sayfa numarası değişkenlerini destekler.
CookiesSorgu için çerezleri (cookies) belirtme imkanı.
User agent_Chrome'un güncel sürümünün user-agent'ı otomatik olarak eklenir_Sayfa sorgulanırken kullanılan User-Agent başlığı
Additional headersŞablon motoru özelliklerini ve sorgu oluşturucudaki değişkenleri kullanarak özel sorgu başlıkları belirtme imkanı
Read only headersSadece başlıkları oku. İçeriği işlemeye gerek yoksa bazı durumlarda trafik tasarrufu sağlar
Detect charset on contentSayfa içeriğine göre kodlamayı tanı
Emulate browser headersTarayıcı başlıklarını emüle et
Max redirects count0Veri kazıyıcının takip edeceği maksimum yönlendirme sayısı
Follow common redirectsMax redirects count limitini atlayarak aynı alan adı içinde http <-> https ve www.domain <-> domain yönlendirmeleri yapılmasına izin verir
Max cookies count16Kaydedilecek maksimum çerez sayısı
EngineHTTP (Fast, JavaScript Disabled)HTTP (daha hızlı, JavaScript yok) veya Chrome (daha yavaş, JavaScript açık) motorunu seçmenize olanak tanır
Chrome HeadlessSeçenek etkinse tarayıcı görüntülenmez
Chrome DevToolsChromium hata ayıklama araçlarını kullanmaya olanak tanır
Chrome Log Proxy connectionsSeçenek etkinse, log dosyasına chrome bağlantılarıyla ilgili bilgiler yazdırılır
Chrome Wait Untilnetworkidle2Sayfanın ne zaman yüklendi sayılacağını belirler. Değerler hakkında daha fazla bilgi.
Use HTTP/2 transportHTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler. Örneğin, Google ve Majestic HTTP/1.1 kullanıldığında hemen yasaklar.
Don't verify TLS certsTLS sertifika doğrulamasını devre dışı bırakma
Randomize TLS FingerprintBu seçenek, sitelerin TLS parmak izine göre uyguladığı yasakları atlatmaya olanak tanır
Bypass CloudFlareCloudFlare kontrolünü otomatik atlatma
Bypass CloudFlare with Chrome(Experimental)Chrome üzerinden CF atlatma
Bypass CloudFlare with Chrome Max Pages20Chrome üzerinden CF atlatırken maks. sayfa sayısı
Subdomains are internalAlt alan adlarının iç bağlantı olarak sayılıp sayılmayacağı
Follow linksInternal onlyHangi bağlantıların takip edileceği
Follow links limit0Her benzersiz alan adı için uygulanan Follow links limiti
Skip comment blocksYorum bloklarının atlanıp atlanmayacağı
Search Cloudflare protected e-mailsCloudflare korumalı e-postaların çekilip çekilmeyeceği.
Skip non-HTML blocksBelirli etiketlerdeki (script, style, comment vb.) e-posta adreslerini toplama.
Skip meta tagsMeta etiketlerindeki e-posta adreslerini toplama
Search URL encoded e-mailsURL kodlanmış e-postaların toplanması