HTML::LinkExtractor - Belirtilen siteden harici ve dahili bağlantı veri kazıyıcı
Veri kazıyıcı genel bakış

HTML::LinkExtractor – belirtilen sitedeki dış ve iç bağlantıları toplayan veri kazıyıcıdır. Çok sayfalı veri çekmeyi ve sitenin iç sayfalarında belirtilen derinliğe kadar gezinmeyi destekler; bu da tüm site sayfalarını dolaşarak iç ve dış bağlantıları toplamaya olanak tanır. Yerleşik koruma atlatma araçlarına sahiptir CloudFlare ve ayrıca Chrome verilerin scriptlerle yüklendiği sayfalardan e-postaları çekmek için motor olarak seçme imkanı sunar. Dakikada 2000 sorgu hızına ulaşabilir – bu da saatte 120 000 bağlantı demektir.Veri kazıyıcı kullanım durumları
Bir sitedeki tüm dış bağlantıları toplama

- Parse to level (Seviyeye kadar veri çek) seçeneğini ekleyin, listeden
10değerini seçin (10. seviyeye kadar komşu sayfalara geçiş). - Result format seçeneğini ekleyin, değer olarak
$extlinks.format('$link\n')belirtin (dış bağlantıların çıktısı). - Queries (Sorgular) bölümünde
Unique queriesseçeneğini işaretleyin. - Results (Sonuçlar) bölümünde
Unique stringseçeneğini işaretleyin. - Sorgu olarak, dış bağlantılarını çekmek istediğiniz sitenin bağlantısını belirtin.
Örneği indir
A-Parser örnek nasıl içe aktarılır
eJxtU01v2zAM/S9CgK5AlrSHXnxLgwZb4dZdm57SHISYztTIoirRWQrD/32U7NjJ
1ptIvsfHL9WCpN/5JwceyItkVQsb3yIRORSy0iTGwkrnwYXwSvxYPqRJkiqzuzuQ
kxtCx4geWwv6tMBstKTQeI6pnM2YIoU9aPbspa4Yc33VnOD34JzK4Ugo0JWSuJa2
hI4iRnAgzeJ+0gK+XYyC+fZmLi5Fs16PRUvxixgODHs96Xrqgy9yD0sMKkrD4F6w
9SjLqJNLghA96lxO6BAyyDxXoTOpW4UwlUH11aiPWKcnp8yW8Ww6BX7hsGQ3QUwS
nJ/HCldiFG3BaarI/9VyREKugrHwXO1Cci15Hyik9hxRBE7yBrJu2Ekt0My0joMe
YDH9baV0zlucFUz62RG/hmT/5Wj6Dk+leGV/HNfQZ4nWbfYwsHJMccuNG+S2tSoV
se3nWJmwmyt27gBsP7bHACvRQS/TZe7U+VAtmHAfw9ZmdnCdtXG2mXPnBk2htll3
c0dkZZb8GzIzx9JqCH2ZSmveiofn4UJmvltDMIYC/yXPo8TZPyJE7e9f2lKtU3yB
N6HAkid5qtql3EitX5/T04gYLoqN30Q2mU7ld4ueFzpRpsCpCESCLfJFcVvNuv+/
/S+vv/zFSd3wwt79U4sO3QUs+3hMnrfBP7b5C6wbebo=
ipucu
Bir sitedeki tüm iç bağlantıları toplama
İlk durumla aynıdır, ancak 2. adımda değer olarak $intlinks.format('$link\n') (iç bağlantıların çıktısı) belirtilmelidir.
Örneği indir
A-Parser örnek nasıl içe aktarılır
eJxtU8tu2zAQ/BfCQBrAtZNDL7o5Roy2cOI0j5PjA2GtXNYUyZIrN4Ggf++QkiW7
zY27O7OzL9aCZdiHB0+BOIhsXQuX3iITORWy0izGwkkfyMfwWnx9vltm2VKZ/e0b
e7ll64HosbXgd0dgW8fKmoCYymGmFEs6kIbnIHUFzPVVc4I/kPcqpyOhsL6UjFra
EjqKGCnDGuJh0gI+XYyi+fpqLi5Fs9mMRUsJixSODHc96Xrqg0/yQM82qihNg3sB
616WSSeXTDF61Lmc8FvMIPNcxc6kbhXiVAbVF6N+pzoDe2V2wMP0isLC2xJuppQk
Ot+PFa7FKNkCaarE/9FyRMa+orEIqHYhUUveBwqpAyKKyUtsYNUNO6uFNTOt06AH
WEp/UymdY4uzAqRvHfFjyOq/HE3f4akUVvbHo4Y+S7JuVncDK7dLu0PjxqJtrUrF
sMPcVibu5grOPZHrx3YfYaX11Mt0mTt1HKojE+9j2NrMDa6zNs42c+7cWlOo3aq7
uSOyMs/4DSszt6XTFPsyldbYSqDH4UJmoVtDNIYC/yXPk8TZP2Jrdfj+1JbqvMIF
fokFlpjkqWqXciu1fnlcnkbEcFEwfjK7bDqVn50NWOhEmcJORSQy7SwuCm01m/7/
9r+8/vAXZ3WDhf0KDy06dhex8GFMAdvAj23+ApcrebQ=
Sadece forum kelimesini içermeyen bağlantılara gitme

- Parse to level (Seviyeye kadar veri çek) seçeneğini ekleyin, listeden
3değerini seçin (3. seviyeye kadar komşu sayfalara geçiş). - Result format seçeneğini ekleyin, değer olarak
$querybelirtin. - Filtre ekleyin.
$followlinks.$i.link - Linküzerinden filtreleyin, tür olarakNot contain string(Satırı içermez) seçin ve satırın kendisineforumyazın. - Queries (Sorgular) bölümünde
Unique queriesseçeneğini işaretleyin. - Results (Sonuçlar) bölümünde
Unique stringseçeneğini işaretleyin. - Sorgu olarak, bağlantılarını çekmek istediğiniz sitenin bağlantısını belirtin.
Örneği indir
A-Parser örnek nasıl içe aktarılır
eJxtVE1v2zAM/S/CDhuQJS2GXXxLgwbd4DZdm57SHISYzrTIkipRaQvD/33UR2xn
6ykh+R75+CG3DLk7uHsLDtCxYtMyE/+zglVQcy+RTZjh1oEN4Q27Wd+WRVEKdbh+
Q8t3qC0hemzL8N0AsbVBoZWjmKjIjClKOIIkz5FLT5hv3Qh+BGtFBSd8rW3DkaQk
BZnBPr14sO/Pz4qNuLWQCEFFhhcbokupXyWpDArCL9tOMnCdWErjTivkQo3yU1nf
kJ3Uk8MB9dBtt6fkbhmFBSnmcppn1Qcf+RHWOkmCwb0k6443sYGKI4ToNHX4+csU
30IGXlUi1OQyVQjTHqo+KfESBTq0Qu0JHwYhwC2tbsiNEJPE6ZwUbvK0Quc+8n8l
DivQepgwR2qXnLRUfaDm0lFE0Jg4bXaVl1i0TKu5lHGBAyymv/JCVnQd85pIPzLx
Y8jqvxxd3+G4FN3CqyUNfZZoXa1uB1alS72PW4z7bQSS7Rbaq7CbC3IeAEw/trsA
a7SFvkzOnKvTAzCgwuENW5ubwXXWxtlmzp10UbXYr/Ixn5BeremVrdRCN0ZC6Et5
KWkrDh6GC5m7vIZgDAL/JS9iibP3iVpL9/MxSTVW0AV+DwIbmuS4ak6541I+PZTj
CBsuiozfiKaYzfjX9PCnO93MWOAh7DUdFHXVbfvPQv/xaD/8OBRtR/v64+4TOjQX
sOSjKbn4yi67v8azl7c=
ipucu
Toplanan veriler
- Dış bağlantı sayısı
- İç bağlantı sayısı
- Dış bağlantılar:
- bağlantıların kendileri
- çapalar (anchors)
- HTML etiketlerinden temizlenmiş çapalar
- nofollow parametresi
- tam
<a>etiketi
- İç bağlantılar:
- bağlantıların kendileri
- çapalar (anchors)
- HTML etiketlerinden temizlenmiş çapalar
- nofollow parametresi
- tam
<a>etiketi
- Toplanan tüm sayfaları içeren dizi (Use Pages seçeneği kullanıldığında kullanılır)
Özellikler
- Çok sayfalı veri çekme (sayfalar arası geçiş)
- Belirtilen derinliğe kadar sitenin iç sayfalarında gezinme (Parse to level seçeneği) – tüm site sayfalarını dolaşarak iç ve dış bağlantıları toplamaya olanak tanır
- Sayfa geçiş sınırı (Follow links limit seçeneği)
- Çapaları HTML etiketlerinden otomatik olarak temizler
- Her bağlantı için nofollow tespiti
- Alt alan adlarını (subdomains) sitenin iç sayfaları olarak sayma seçeneği
- gzip/deflate/brotli sıkıştırmalarını destekler
- Site kodlamalarını tespit etme ve UTF-8'e dönüştürme
- CloudFlare korumasını atlatma
- Motor seçimi (HTTP veya Chrome)
Kullanım senaryoları
- Tam site haritası oluşturma (tüm iç bağlantıları kaydetme)
- Bir sitedeki tüm dış bağlantıları alma
- Kendi sitenize verilen geri bağlantıyı (backlink) kontrol etme
Sorgular
Sorgu olarak, bağlantıların toplanması gereken sayfaların bağlantılarını veya Parse to level seçeneği kullanıldığında giriş noktasını (örneğin, sitenin ana sayfası) belirtmek gerekir:
https://lenta.ru/
https://a-parser.com/wiki/index/
Sonuç çıktı seçenekleri
A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde biçimlendirilmesini destekler; bu da sonuçları hem serbest formda hem de CSV veya JSON gibi yapılandırılmış formlarda almanıza olanak tanır.
Dış ve iç bağlantıların sayılarıyla birlikte çıktısı
Sonuç formatı:
External links: $extcount\n$extlinks.format('$link\n')
Internal links: $intcount\n$intlinks.format('$link\n')
Sonuç örneği:
External links: 12
https://www.youtube.com/c/AParser_channel
https://t.me/a_parser
https://en.a-parser.com/
https://spyserp.com/ru/
https://sitechecker.pro/
https://arsenkin.ru/tools/
https://spyserp.com/
http://www.promkaskad.ru/
https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw
https://www.facebook.com/AParserRu
https://twitter.com/a_parser
https://www.youtube.com/c/AParser_channel
Internal links: 129
https://a-parser.com/
https://a-parser.com/
https://a-parser.com/a-parser-for-seo/
https://a-parser.com/a-parser-for-business-and-freelancers/
https://a-parser.com/a-parser-for-developers/
https://a-parser.com/a-parser-for-marketing-and-analytics/
https://a-parser.com/a-parser-for-e-commerce/
https://a-parser.com/a-parser-for-cpa/
https://a-parser.com/wiki/features-and-benefits/
https://a-parser.com/wiki/parsers/
Olası ayarlar
not
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Good status | All | Sunucudan gelen hangi yanıtın başarılı sayılacağı. Kazıma sırasında sunucudan farklı bir yanıt gelirse, sorgu başka bir proxy ile tekrarlanacaktır |
| Good code RegEx | Yanıt kodunu kontrol etmek için düzenli ifade (regex) belirtme imkanı | |
| Ban Proxy Code RegEx | Sunucu yanıt koduna göre proxy'yi geçici olarak yasaklama (Proxy ban time) imkanı | |
| Method | GET | Sorgu yöntemi |
| POST body | POST yöntemi kullanıldığında sunucuya iletilecek içerik. $query – sorgu URL'si, $query.orig – orijinal sorgu ve Use Pages seçeneği kullanıldığında $pagenum - sayfa numarası değişkenlerini destekler. | |
| Cookies | Sorgu için çerezleri (cookies) belirtme imkanı. | |
| User agent | _Otomatik olarak güncel Chrome sürümünün user-agent'ı eklenir_ | Sayfa sorgularken kullanılan User-Agent başlığı |
| Additional headers | Şablon motoru özelliklerini ve sorgu oluşturucudaki değişkenleri kullanarak özel sorgu başlıkları belirtme imkanı | |
| Read only headers | ☐ | Sadece başlıkları oku. İçeriği işlemeye gerek yoksa trafik tasarrufu sağlar |
| Detect charset on content | ☐ | Sayfa içeriğine göre kodlamayı tanı |
| Emulate browser headers | ☐ | Tarayıcı başlıklarını taklit et |
| Max redirects count | 0 | Veri kazıyıcının takip edeceği maksimum yönlendirme sayısı |
| Follow common redirects | ☑ | Max redirects count sınırını aşmadan aynı alan adı içinde http <-> https ve www.domain <-> domain yönlendirmeleri yapılmasına izin verir |
| Max cookies count | 16 | Kaydedilecek maksimum çerez sayısı |
| Engine | HTTP (Fast, JavaScript Disabled) | HTTP motorunu (daha hızlı, JavaScript yok) veya Chrome motorunu (daha yavaş, JavaScript açık) seçmeye olanak tanır |
| Chrome Headless | ☐ | Bu seçenek etkinse tarayıcı görüntülenmez |
| Chrome DevTools | ☑ | Chromium hata ayıklama araçlarını kullanmaya olanak tanır |
| Chrome Log Proxy connections | ☑ | Bu seçenek etkinse, chrome bağlantılarıyla ilgili bilgiler günlüğe yazılır |
| Chrome Wait Until | networkidle2 | Sayfanın ne zaman yüklendi sayılacağını belirler. Değerler hakkında daha fazla bilgi. |
| Use HTTP/2 transport | ☐ | HTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler. Örneğin, Google ve Majestic HTTP/1.1 kullanılırsa hemen engeller. |
| Don't verify TLS certs | ☐ | TLS sertifika doğrulamasını devre dışı bırakma |
| Randomize TLS Fingerprint | ☐ | Bu seçenek, sitelerin TLS parmak izine göre engellemesini aşmaya olanak tanır |
| Bypass CloudFlare | ☑ | CloudFlare kontrolünü otomatik olarak atlatma |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Chrome üzerinden CF atlatma |
| Bypass CloudFlare with Chrome Max Pages | 20 | Chrome üzerinden CF atlatırken maks. sayfa sayısı |
| Subdomains are internal | ☐ | Alt alan adlarının iç bağlantı olarak sayılıp sayılmayacağı |
| Follow links | Internal only | Hangi bağlantıların takip edileceği |
| Follow links limit | 0 | Her benzersiz alan adı için uygulanan Follow links sınırı |
| Skip comment blocks | ☐ | Yorum bloklarının atlanıp atlanmayacağı |