HTML::EmailExtractor - Web sayfalarından email adresi veri çekme
Veri kazıyıcı incelemesi

HTML::EmailExtractor belirtilen sayfalardan e-posta adreslerini toplar. İç ve dış bağlantıları toplayarak sitenin tüm sayfalarını taramaya olanak tanıyan, belirtilen derinliğe kadar sitenin iç sayfalarında gezinmeyi destekler. E-posta veri kazıyıcı, yerleşik koruma atlatma araçlarına sahiptir CloudFlare ve ayrıca verilerin scriptlerle yüklendiği sayfalardan e-posta çekmek için motor olarak Chrome seçme imkanı sunar. Dakikada 250 sorguya kadar hıza ulaşabilir – bu da 15 000 bağlantı demektir.Veri kazıyıcı kullanım örnekleri
Belirtilen limite kadar sayfaların derinliğine inerek bir siteden e-postaları çekme

- Parse to level (Seviyeye kadar kazı) seçeneğini ekleyin, listeden gerekli değeri (limit) seçin.
- Queries (Sorgular) bölümünde
Unique queriesseçeneğini işaretleyin. - Results (Sonuçlar) bölümünde
Unique stringseçeneğini işaretleyin. - Sorgu olarak, e-postaların çekilmesi gereken web sitesinin bağlantısını belirtin.
Örneği indir
Örnek A-Parser nasıl aktarılır
eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr
ipucu
Her bir sitenin belirtilen limit derinliğine kadar taranmasıyla bir site veritabanından e-postaları çekme

- Parse to level (Seviyeye kadar kazı) seçeneğini ekleyin, listeden gerekli değeri (limit) seçin.
- Queries (Sorgular) bölümünde
Unique queriesseçeneğini işaretleyin. - Results (Sonuçlar) bölümünde
Unique stringseçeneğini işaretleyin. - Sorgu olarak, e-postaların çekilmesi gereken web sitelerinin bağlantılarını belirtin veya Queries from (Sorgu kaynağı) kısmında
Fileseçeneğini belirleyip site veritabanını içeren sorgu dosyasını yükleyin.
Örneği indir
Örnek A-Parser nasıl aktarılır
eJxtU01z2jAQ/S8aDu0MY5pDL74RJkzTIXGakBPDQYPXREWWVEmGpB7+e98Kx4Ym
N+3u2/f2S62IMuzCg6dAMYh81QqX3iIXJVWy0VGMhZM+kOfwSvxY3i3y/KaWSt+8
Ri830XpAenAr4psjpFsXlTUBMVXCTBwL2pOGZy91A8zVcb0eC+ghM8ytryXrjtxV
1hXRB5/knpYWwUppGtxzWPeyZrlRKSNxNKsS0ZevWXxlBlmWiiuR+qTAbQyqz0b9
4VJEiF6ZLfAwvaIw97aGO1IiYefbe4UrMUq2AE2T8n+dckQefUNjEVDtHAOisg9U
UgdEVCQvMbGiG07eCmumWqfBDLBEf90oXWLs0wpJt13i55DiA8ex7/Bcak/+4FFD
z5Ks6+JuyCrtwm7RuLFoW6taRdhhZhvDu/kG547I9WO7Z1htPfUyHXOnjstyZPgA
hq1N3eC6aONiM5fOjTWV2hZowKuS3pGNWeJ8CzOztdPEfZlGa2wl0ONwIdPQrYGN
ocD/k2dJ4uLwo7U6/Hw6leq8wgV+5wJrTPJctaPcSK2fHxfnETFcFIyXGF3IJ5PD
4ZDt/taBl5r5ZiI4N9LW4qjQ2XHd/7n+Z7af/7y8PWJpv8PDCc4dMhg+jCpgI/zL
/gFm02Dr
ipucu
Bağlantı veritabanına göre e-postaları çekme

- Queries (Sorgular) bölümünde
Unique queriesseçeneğini işaretleyin. - Results (Sonuçlar) bölümünde
Unique stringseçeneğini işaretleyin. - Sorgu olarak, e-postaların çekilmesi gereken bağlantıları belirtin veya Queries from (Sorgu kaynağı) kısmında
Fileseçeneğini belirleyip bağlantı veritabanını içeren sorgu dosyasını yükleyin.
Örneği indir
Örnek A-Parser nasıl aktarılır
eJxtU01z0zAQ/S+aHmAmOPTAxbc00wwwaV3a9BRyEPE6COuLXSkpePLfWTmOHZfe
tG/fvv1UI4Kkmh4QCAKJfN0I375FLkqoZNRBTISXSIDJvRafV3fLPL81Uunbl4By
Gxwy5UzebCaCBfhJC4dGJqErf511qr3zSe5h5dhZKQ0DvGDrXhpIUaUMkLxZ1Qq9
e5+Fl6Qgy1IF5azUpwypriHrs1W/Y4qngMrumM8mKqAFOsNwgFYkgX/OFa7FVWsL
lolt/LdTjMgDRpgI4moX3DGUvaOSmtijAqDkERQ+lcR4I5ydab2EPeiB1srfRKVL
nuOs4qAvXeDblOI/jWPf4WWqPeABuYZepbVuirshqnRLt+PGreO2tTIqsE1zF23a
zUcGawDfj+0+0YxD6NN0yl12PhUPtmTmsLWZH6BRG6PNjMGts5XaFdwAqhLOzGhX
fI+FnTvjNaS+bNSat0LwOFzIjLo1JGMo8HXwvE0xuuTgnKavT6dSPSq+wE+pQMOT
vMzaSW6l1s+Py0uPGC6KjZ8heMqn08PhkNV/DaWlZhin3+3Z8wMl4Bjy6Mq4DVuw
4bXLOKpZwoxRqSv5IUBNY5hMpqkVEKnUADvHN8yDPG76P9v/7Obtn5s3R76RX/Rw
oqeBJjJjvBniAxD59fEfH7B6cg==
ipucu
Toplanan veriler

- E-posta adresleri
- Sayfadaki toplam e-posta adresi sayısı
- Toplanan tüm sayfaları içeren dizi (Use Pages seçeneği kullanıldığında kullanılır)
Özellikler
- Çok sayfalı veri çekme (sayfalar arası geçiş)
- Belirtilen derinliğe kadar sitenin iç sayfalarında gezinme (Parse to level seçeneği) – iç ve dış bağlantıları toplayarak sitenin tüm sayfalarını taramaya olanak tanır
- Bağlantılar için follow links tespiti
- Sayfa geçiş limiti (Follow links limit seçeneği)
- Alt alan adlarını sitenin iç sayfaları olarak sayma seçeneği
- gzip/deflate/brotli sıkıştırma desteği
- Site kodlamalarını tespit etme ve UTF-8'e dönüştürme
- CloudFlare korumasını atlatma
- Motor seçimi (HTTP veya Chrome)
HTML::LinkExtractor'ın tüm işlevselliği için destek
Kullanım senaryoları
- E-posta adreslerini çekme
- E-posta adresi sayısını yazdırma
Sorgular
Sorgu olarak sayfa bağlantıları belirtilmelidir, örneğin:
https://a-parser.com/pages/support/
Sonuç çıktı seçenekleri
A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçları esnek bir şekilde biçimlendirmenize olanak tanır; bu da sonuçları CSV veya JSON gibi yapılandırılmış formların yanı sıra herhangi bir özel formda yazdırmanızı sağlar.
E-posta adresi sayısını yazdırma
Sonuç formatı:
$mailcount
Örnek sonuç:
4
Olası ayarlar
not
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Good status | All | Sunucudan gelen hangi yanıtın başarılı sayılacağının seçimi. Veri çekme sırasında sunucudan farklı bir yanıt gelirse, sorgu başka bir proxy ile tekrarlanacaktır |
| Good code RegEx | Yanıt kodunu kontrol etmek için düzenli ifade belirtme imkanı | |
| Ban Proxy Code RegEx | Sunucu yanıt koduna göre proxyleri geçici olarak yasaklama (Proxy ban time) imkanı | |
| Method | GET | Sorgu yöntemi |
| POST body | POST yöntemi kullanıldığında sunucuya gönderilecek içerik. $query – sorgu URL'si, $query.orig – orijinal sorgu ve Use Pages seçeneği kullanıldığında $pagenum - sayfa numarası değişkenlerini destekler. | |
| Cookies | Sorgu için çerezleri (cookies) belirtme imkanı. | |
| User agent | _Chrome'un güncel sürümünün user-agent'ı otomatik olarak eklenir_ | Sayfa sorgulanırken kullanılan User-Agent başlığı |
| Additional headers | Şablon motoru özelliklerini ve sorgu oluşturucudaki değişkenleri kullanarak özel sorgu başlıkları belirtme imkanı | |
| Read only headers | ☐ | Sadece başlıkları oku. İçeriği işlemeye gerek yoksa bazı durumlarda trafik tasarrufu sağlar |
| Detect charset on content | ☐ | Sayfa içeriğine göre kodlamayı tanı |
| Emulate browser headers | ☐ | Tarayıcı başlıklarını emüle et |
| Max redirects count | 0 | Veri kazıyıcının takip edeceği maksimum yönlendirme sayısı |
| Follow common redirects | ☑ | Max redirects count limitini atlayarak aynı alan adı içinde http <-> https ve www.domain <-> domain yönlendirmeleri yapılmasına izin verir |
| Max cookies count | 16 | Kaydedilecek maksimum çerez sayısı |
| Engine | HTTP (Fast, JavaScript Disabled) | HTTP (daha hızlı, JavaScript yok) veya Chrome (daha yavaş, JavaScript açık) motorunu seçmenize olanak tanır |
| Chrome Headless | ☐ | Seçenek etkinse tarayıcı görüntülenmez |
| Chrome DevTools | ☑ | Chromium hata ayıklama araçlarını kullanmaya olanak tanır |
| Chrome Log Proxy connections | ☑ | Seçenek etkinse, log dosyasına chrome bağlantılarıyla ilgili bilgiler yazdırılır |
| Chrome Wait Until | networkidle2 | Sayfanın ne zaman yüklendi sayılacağını belirler. Değerler hakkında daha fazla bilgi. |
| Use HTTP/2 transport | ☐ | HTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler. Örneğin, Google ve Majestic HTTP/1.1 kullanıldığında hemen yasaklar. |
| Don't verify TLS certs | ☐ | TLS sertifika doğrulamasını devre dışı bırakma |
| Randomize TLS Fingerprint | ☐ | Bu seçenek, sitelerin TLS parmak izine göre uyguladığı yasakları atlatmaya olanak tanır |
| Bypass CloudFlare | ☑ | CloudFlare kontrolünü otomatik atlatma |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Chrome üzerinden CF atlatma |
| Bypass CloudFlare with Chrome Max Pages | 20 | Chrome üzerinden CF atlatırken maks. sayfa sayısı |
| Subdomains are internal | ☐ | Alt alan adlarının iç bağlantı olarak sayılıp sayılmayacağı |
| Follow links | Internal only | Hangi bağlantıların takip edileceği |
| Follow links limit | 0 | Her benzersiz alan adı için uygulanan Follow links limiti |
| Skip comment blocks | ☐ | Yorum bloklarının atlanıp atlanmayacağı |
| Search Cloudflare protected e-mails | ☑ | Cloudflare korumalı e-postaların çekilip çekilmeyeceği. |
| Skip non-HTML blocks | ☑ | Belirli etiketlerdeki (script, style, comment vb.) e-posta adreslerini toplama. |
| Skip meta tags | ☐ | Meta etiketlerindeki e-posta adreslerini toplama |
| Search URL encoded e-mails | ☐ | URL kodlanmış e-postaların toplanması |