Ana içeriğe atla

HTML::LinkExtractor - Belirtilen siteden harici ve dahili bağlantı veri kazıyıcı

Veri kazıyıcı genel bakış

Veri kazıyıcı genel bakışHTML::LinkExtractorHTML::LinkExtractor – belirtilen sitedeki dış ve iç bağlantıları toplayan veri kazıyıcıdır. Çok sayfalı veri çekmeyi ve sitenin iç sayfalarında belirtilen derinliğe kadar gezinmeyi destekler; bu da tüm site sayfalarını dolaşarak iç ve dış bağlantıları toplamaya olanak tanır. Yerleşik koruma atlatma araçlarına sahiptir CloudFlare ve ayrıca Chrome verilerin scriptlerle yüklendiği sayfalardan e-postaları çekmek için motor olarak seçme imkanı sunar. Dakikada 2000 sorgu hızına ulaşabilir – bu da saatte 120 000 bağlantı demektir.

Veri kazıyıcı kullanım durumları

Bir sitedeki tüm dış bağlantıları toplama
  1. Parse to level (Seviyeye kadar veri çek) seçeneğini ekleyin, listeden 10 değerini seçin (10. seviyeye kadar komşu sayfalara geçiş).
  2. Result format seçeneğini ekleyin, değer olarak $extlinks.format('$link\n') belirtin (dış bağlantıların çıktısı).
  3. Queries (Sorgular) bölümünde Unique queries seçeneğini işaretleyin.
  4. Results (Sonuçlar) bölümünde Unique string seçeneğini işaretleyin.
  5. Sorgu olarak, dış bağlantılarını çekmek istediğiniz sitenin bağlantısını belirtin.
Örneği indir

A-Parser örnek nasıl içe aktarılır

eJxtU01v2zAM/S9CgK5AlrSHXnxLgwZb4dZdm57SHISYztTIoirRWQrD/32U7NjJ
1ptIvsfHL9WCpN/5JwceyItkVQsb3yIRORSy0iTGwkrnwYXwSvxYPqRJkiqzuzuQ
kxtCx4geWwv6tMBstKTQeI6pnM2YIoU9aPbspa4Yc33VnOD34JzK4Ugo0JWSuJa2
hI4iRnAgzeJ+0gK+XYyC+fZmLi5Fs16PRUvxixgODHs96Xrqgy9yD0sMKkrD4F6w
9SjLqJNLghA96lxO6BAyyDxXoTOpW4UwlUH11aiPWKcnp8yW8Ww6BX7hsGQ3QUwS
nJ/HCldiFG3BaarI/9VyREKugrHwXO1Cci15Hyik9hxRBE7yBrJu2Ekt0My0joMe
YDH9baV0zlucFUz62RG/hmT/5Wj6Dk+leGV/HNfQZ4nWbfYwsHJMccuNG+S2tSoV
se3nWJmwmyt27gBsP7bHACvRQS/TZe7U+VAtmHAfw9ZmdnCdtXG2mXPnBk2htll3
c0dkZZb8GzIzx9JqCH2ZSmveiofn4UJmvltDMIYC/yXPo8TZPyJE7e9f2lKtU3yB
N6HAkid5qtql3EitX5/T04gYLoqN30Q2mU7ld4ueFzpRpsCpCESCLfJFcVvNuv+/
/S+vv/zFSd3wwt79U4sO3QUs+3hMnrfBP7b5C6wbebo=

İlk durumla aynıdır, ancak 2. adımda değer olarak $intlinks.format('$link\n') (iç bağlantıların çıktısı) belirtilmelidir.

Örneği indir

A-Parser örnek nasıl içe aktarılır

eJxtU8tu2zAQ/BfCQBrAtZNDL7o5Roy2cOI0j5PjA2GtXNYUyZIrN4Ggf++QkiW7
zY27O7OzL9aCZdiHB0+BOIhsXQuX3iITORWy0izGwkkfyMfwWnx9vltm2VKZ/e0b
e7ll64HosbXgd0dgW8fKmoCYymGmFEs6kIbnIHUFzPVVc4I/kPcqpyOhsL6UjFra
EjqKGCnDGuJh0gI+XYyi+fpqLi5Fs9mMRUsJixSODHc96Xrqg0/yQM82qihNg3sB
616WSSeXTDF61Lmc8FvMIPNcxc6kbhXiVAbVF6N+pzoDe2V2wMP0isLC2xJuppQk
Ot+PFa7FKNkCaarE/9FyRMa+orEIqHYhUUveBwqpAyKKyUtsYNUNO6uFNTOt06AH
WEp/UymdY4uzAqRvHfFjyOq/HE3f4akUVvbHo4Y+S7JuVncDK7dLu0PjxqJtrUrF
sMPcVibu5grOPZHrx3YfYaX11Mt0mTt1HKojE+9j2NrMDa6zNs42c+7cWlOo3aq7
uSOyMs/4DSszt6XTFPsyldbYSqDH4UJmoVtDNIYC/yXPk8TZP2Jrdfj+1JbqvMIF
fokFlpjkqWqXciu1fnlcnkbEcFEwfjK7bDqVn50NWOhEmcJORSQy7SwuCm01m/7/
9r+8/vAXZ3WDhf0KDy06dhex8GFMAdvAj23+ApcrebQ=
Sadece forum kelimesini içermeyen bağlantılara gitme
  1. Parse to level (Seviyeye kadar veri çek) seçeneğini ekleyin, listeden 3 değerini seçin (3. seviyeye kadar komşu sayfalara geçiş).
  2. Result format seçeneğini ekleyin, değer olarak $query belirtin.
  3. Filtre ekleyin. $followlinks.$i.link - Link üzerinden filtreleyin, tür olarak Not contain string (Satırı içermez) seçin ve satırın kendisine forum yazın.
  4. Queries (Sorgular) bölümünde Unique queries seçeneğini işaretleyin.
  5. Results (Sonuçlar) bölümünde Unique string seçeneğini işaretleyin.
  6. Sorgu olarak, bağlantılarını çekmek istediğiniz sitenin bağlantısını belirtin.
Örneği indir

A-Parser örnek nasıl içe aktarılır

eJxtVE1v2zAM/S/CDhuQJS2GXXxLgwbd4DZdm57SHISYzrTIkipRaQvD/33UR2xn
6ykh+R75+CG3DLk7uHsLDtCxYtMyE/+zglVQcy+RTZjh1oEN4Q27Wd+WRVEKdbh+
Q8t3qC0hemzL8N0AsbVBoZWjmKjIjClKOIIkz5FLT5hv3Qh+BGtFBSd8rW3DkaQk
BZnBPr14sO/Pz4qNuLWQCEFFhhcbokupXyWpDArCL9tOMnCdWErjTivkQo3yU1nf
kJ3Uk8MB9dBtt6fkbhmFBSnmcppn1Qcf+RHWOkmCwb0k6443sYGKI4ToNHX4+csU
30IGXlUi1OQyVQjTHqo+KfESBTq0Qu0JHwYhwC2tbsiNEJPE6ZwUbvK0Quc+8n8l
DivQepgwR2qXnLRUfaDm0lFE0Jg4bXaVl1i0TKu5lHGBAyymv/JCVnQd85pIPzLx
Y8jqvxxd3+G4FN3CqyUNfZZoXa1uB1alS72PW4z7bQSS7Rbaq7CbC3IeAEw/trsA
a7SFvkzOnKvTAzCgwuENW5ubwXXWxtlmzp10UbXYr/Ixn5BeremVrdRCN0ZC6Et5
KWkrDh6GC5m7vIZgDAL/JS9iibP3iVpL9/MxSTVW0AV+DwIbmuS4ak6541I+PZTj
CBsuiozfiKaYzfjX9PCnO93MWOAh7DUdFHXVbfvPQv/xaD/8OBRtR/v64+4TOjQX
sOSjKbn4yi67v8azl7c=

Toplanan veriler

  • Dış bağlantı sayısı
  • İç bağlantı sayısı
  • Dış bağlantılar:
    • bağlantıların kendileri
    • çapalar (anchors)
    • HTML etiketlerinden temizlenmiş çapalar
    • nofollow parametresi
    • tam <a> etiketi
  • İç bağlantılar:
    • bağlantıların kendileri
    • çapalar (anchors)
    • HTML etiketlerinden temizlenmiş çapalar
    • nofollow parametresi
    • tam <a> etiketi
  • Toplanan tüm sayfaları içeren dizi (Use Pages seçeneği kullanıldığında kullanılır)

Özellikler

  • Çok sayfalı veri çekme (sayfalar arası geçiş)
  • Belirtilen derinliğe kadar sitenin iç sayfalarında gezinme (Parse to level seçeneği) – tüm site sayfalarını dolaşarak iç ve dış bağlantıları toplamaya olanak tanır
  • Sayfa geçiş sınırı (Follow links limit seçeneği)
  • Çapaları HTML etiketlerinden otomatik olarak temizler
  • Her bağlantı için nofollow tespiti
  • Alt alan adlarını (subdomains) sitenin iç sayfaları olarak sayma seçeneği
  • gzip/deflate/brotli sıkıştırmalarını destekler
  • Site kodlamalarını tespit etme ve UTF-8'e dönüştürme
  • CloudFlare korumasını atlatma
  • Motor seçimi (HTTP veya Chrome)

Kullanım senaryoları

  • Tam site haritası oluşturma (tüm iç bağlantıları kaydetme)
  • Bir sitedeki tüm dış bağlantıları alma
  • Kendi sitenize verilen geri bağlantıyı (backlink) kontrol etme

Sorgular

Sorgu olarak, bağlantıların toplanması gereken sayfaların bağlantılarını veya Parse to level seçeneği kullanıldığında giriş noktasını (örneğin, sitenin ana sayfası) belirtmek gerekir:

https://lenta.ru/
https://a-parser.com/wiki/index/

Sonuç çıktı seçenekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde biçimlendirilmesini destekler; bu da sonuçları hem serbest formda hem de CSV veya JSON gibi yapılandırılmış formlarda almanıza olanak tanır.

Sonuç formatı:

External links: $extcount\n$extlinks.format('$link\n')
Internal links: $intcount\n$intlinks.format('$link\n')

Sonuç örneği:

External links: 12
https://www.youtube.com/c/AParser_channel
https://t.me/a_parser
https://en.a-parser.com/
https://spyserp.com/ru/
https://sitechecker.pro/
https://arsenkin.ru/tools/
https://spyserp.com/
http://www.promkaskad.ru/
https://www.youtube.com/channel/UCvypGICrfCky8tPtebmIvQw
https://www.facebook.com/AParserRu
https://twitter.com/a_parser
https://www.youtube.com/c/AParser_channel

Internal links: 129
https://a-parser.com/
https://a-parser.com/
https://a-parser.com/a-parser-for-seo/
https://a-parser.com/a-parser-for-business-and-freelancers/
https://a-parser.com/a-parser-for-developers/
https://a-parser.com/a-parser-for-marketing-and-analytics/
https://a-parser.com/a-parser-for-e-commerce/
https://a-parser.com/a-parser-for-cpa/
https://a-parser.com/wiki/features-and-benefits/
https://a-parser.com/wiki/parsers/

Olası ayarlar

Parametre adıVarsayılan değerAçıklama
Good statusAllSunucudan gelen hangi yanıtın başarılı sayılacağı. Kazıma sırasında sunucudan farklı bir yanıt gelirse, sorgu başka bir proxy ile tekrarlanacaktır
Good code RegExYanıt kodunu kontrol etmek için düzenli ifade (regex) belirtme imkanı
Ban Proxy Code RegExSunucu yanıt koduna göre proxy'yi geçici olarak yasaklama (Proxy ban time) imkanı
MethodGETSorgu yöntemi
POST bodyPOST yöntemi kullanıldığında sunucuya iletilecek içerik. $query – sorgu URL'si, $query.orig – orijinal sorgu ve Use Pages seçeneği kullanıldığında $pagenum - sayfa numarası değişkenlerini destekler.
CookiesSorgu için çerezleri (cookies) belirtme imkanı.
User agent_Otomatik olarak güncel Chrome sürümünün user-agent'ı eklenir_Sayfa sorgularken kullanılan User-Agent başlığı
Additional headersŞablon motoru özelliklerini ve sorgu oluşturucudaki değişkenleri kullanarak özel sorgu başlıkları belirtme imkanı
Read only headersSadece başlıkları oku. İçeriği işlemeye gerek yoksa trafik tasarrufu sağlar
Detect charset on contentSayfa içeriğine göre kodlamayı tanı
Emulate browser headersTarayıcı başlıklarını taklit et
Max redirects count0Veri kazıyıcının takip edeceği maksimum yönlendirme sayısı
Follow common redirectsMax redirects count sınırını aşmadan aynı alan adı içinde http <-> https ve www.domain <-> domain yönlendirmeleri yapılmasına izin verir
Max cookies count16Kaydedilecek maksimum çerez sayısı
EngineHTTP (Fast, JavaScript Disabled)HTTP motorunu (daha hızlı, JavaScript yok) veya Chrome motorunu (daha yavaş, JavaScript açık) seçmeye olanak tanır
Chrome HeadlessBu seçenek etkinse tarayıcı görüntülenmez
Chrome DevToolsChromium hata ayıklama araçlarını kullanmaya olanak tanır
Chrome Log Proxy connectionsBu seçenek etkinse, chrome bağlantılarıyla ilgili bilgiler günlüğe yazılır
Chrome Wait Untilnetworkidle2Sayfanın ne zaman yüklendi sayılacağını belirler. Değerler hakkında daha fazla bilgi.
Use HTTP/2 transportHTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler. Örneğin, Google ve Majestic HTTP/1.1 kullanılırsa hemen engeller.
Don't verify TLS certsTLS sertifika doğrulamasını devre dışı bırakma
Randomize TLS FingerprintBu seçenek, sitelerin TLS parmak izine göre engellemesini aşmaya olanak tanır
Bypass CloudFlareCloudFlare kontrolünü otomatik olarak atlatma
Bypass CloudFlare with Chrome(Experimental)Chrome üzerinden CF atlatma
Bypass CloudFlare with Chrome Max Pages20Chrome üzerinden CF atlatırken maks. sayfa sayısı
Subdomains are internalAlt alan adlarının iç bağlantı olarak sayılıp sayılmayacağı
Follow linksInternal onlyHangi bağlantıların takip edileceği
Follow links limit0Her benzersiz alan adı için uygulanan Follow links sınırı
Skip comment blocksYorum bloklarının atlanıp atlanmayacağı