Ana içeriğe atla

Check::BackLink - bir bağlantı veritabanındaki bağlantıların (linklerin) varlığını kontrol eder

Veri kazıyıcı incelemesi

Veri kazıyıcı incelemesi: çalışma hızı

Veri kazıyıcı, sitenize bağlantı veren sayfaların bağlantılarını, yani geri bağlantıları (backlinks) kontrol etmenizi sağlar.

A-Parser işlevselliği, veri çekme ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması belirlemenize ve çok daha fazlasına olanak tanır.

Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçim ve yapıda mümkündür.

Veri kazıyıcı kullanım durumları

Toplanan veriler

  • Sayfadaki harici ve dahili bağlantıların toplamı
  • Belirtilen sayfada bağlantının varlığını kontrol eder: 0 ve 1
    • 0 - geri bağlantının tam eşleşmesinin olmadığı anlamına gelir
    • 1 - geri bağlantının tam eşleşmesinin olduğu anlamına gelir
  • Belirtilen sayfanın robots.txt üzerinden görüntülenmesinin engellenmesi - 0 ve 1
  • Sayfa indekslemesinin noindex özniteliğine sahip robots meta etiketi aracılığıyla engellenmesi ve ayrıca nofollow özniteliği aracılığıyla bağlantı geçişinin engellenmesi
  • rel=nofollow özniteliği aracılığıyla bağlantı geçişinin engellenmesi

Elde edilebilecek ek veriler:

  • Sayfadaki harici ve dahili bağlantı sayısı
  • Sayfadaki tüm harici ve dahili bağlantıların listesi

Özellikler

  • Belirtilen sayfada bağlantının varlığını kontrol eder, dize eşleşmesine göre şema belirtmeden bağlantı arama imkanı sunar
  • Sayfanın robots.txt üzerinden indekslemeye kapalı olup olmadığını kontrol eder
  • Robots meta etiketini noindex ve nofollow öznitelikleri açısından kontrol eder
  • Bulunan bağlantıda rel=nofollow olup olmadığını kontrol eder
  • Dize eşleşmesine göre bağlantı arama
  • Kendi User-Agent başlığınızı belirleme imkanı

Kullanım seçenekleri

  • Belirtilen sayfalarda kendi bağlantılarınızın yerleşimini kontrol etme
  • Yalnızca belirli bir User-Agent'a (örneğin Google botu için) görünen bağlantıları arama

Sorgular

Sorgu olarak, bağlantının aranacağı sayfayı ve bir boşluk bırakarak aranan bağlantıyı belirtmeniz gerekir:

https://fishki.net/ https://lenta.ru/news/2020/12/18/lavina/
https://en.wikipedia.org/wiki/Moscow https://lenta.ru/news/2005/12/23/city/
http://soccerjerseys.in.net/ https://lenta.ru/news/2012/03/12/homeless/
https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/

Sorgu makroları

Dosyalardan alt sorguların otomatik olarak yerleştirilmesi için yerleşik makroları kullanabilirsiniz; örneğin, bir sayfa veritabanına göre siteleri/siteyi kontrol etmek istiyorsak, bağlantıların aranacağı sayfaların listesini belirtelim:

https://fishki.net/
https://en.wikipedia.org/wiki/Moscow
http://soccerjerseys.in.net/
https://tjournal.ru/

Sorgu formatında, backlinks.txt dosyasından ek sorguların yerleştirilmesi için makroyu belirtelim; bu yöntem, bir site veritabanını dosyadaki bağlantı listesi varlığı açısından kontrol etmenizi sağlar:

$query {subs:backlinks}

Bu makro, her bir kaynak arama sorgusu için dosyadaki sorgu sayısı kadar ek sorgu oluşturacaktır; bu da makro çalışması sonucunda toplamda [kaynak sorgu sayısı (sayfa bağlantıları)] x [backlinks dosyasındaki sorgu sayısı] = [toplam sorgu sayısı] verecektir.

Ayrıca, sorgu formatında protokol belirtebilirsiniz, böylece sorgu olarak yalnızca alan adlarını kullanabilirsiniz:

http://$query 

Bu format, her sorgunun başına http:// ekleyecektir.

Sonuç çıktı seçenekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları rastgele bir formda veya CSV veya JSON gibi yapılandırılmış bir biçimde çıktı almasına olanak tanır.

Varsayılan çıktı

Sonuç formatı:

$backlink - $checklink: $exists, blocked by robots.txt: $robots\n

Geri bağlantının, geri bağlantı aramasının yapıldığı sayfa bağlantısının, geri bağlantının varlığının veya yokluğunun ve sayfanın robots.txt dosyasında engellenip engellenmediğinin kontrolünün görüntülendiği sonuç örneği:

http://soccerjerseys.in.net/ - https://lenta.ru/news/2012/03/12/homeless/: 1, blocked by robots.txt: 0
https://tjournal.ru/ - https://lenta.ru/articles/2016/02/15/deathlab/: 0, blocked by robots.txt: 0
https://en.wikipedia.org/wiki/Moscow - https://lenta.ru/news/2005/12/23/city/: 0, blocked by robots.txt: 0
https://fishki.net/ - https://lenta.ru/news/2020/12/18/lavina/: 0, blocked by robots.txt: 0

Geri bağlantıların varlığının ve geri bağlantı analizi için ek parametrelerin CSV tablosuna çıktısı

Yerleşik $tools.CSVLine yardımcı programı, Excel veya Google Tablolar'a aktarılmaya hazır doğru tablolu belgeler oluşturmanıza olanak tanır.

$datefile.format().csv

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

[% tools.CSVline(backlink, checklink, anchor, nofollow, noindex, redirect, exists, robots, actualbacklink, actualchecklink, intcount, extcount) %]

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37

$datefile.format().csv

https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31

Backlink,Checklink,Anchor,Nofollow,Noindex,Redirect,Exists,Robots,Actualbacklink,Actualchecklink,Intlinks count,Extlinks count

http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20

https://tjournal.ru/,https://lenta.ru/articles/2016/02/15/deathlab/,none,0,0,0,0,0,https://tjournal.ru/,none,112,37
https://fishki.net/,https://lenta.ru/news/2020/12/18/lavina/,none,0,0,0,0,0,https://fishki.net/,none,966,31
http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,"get more information",0,0,0,1,0,http://soccerjerseys.in.net/,https://lenta.ru/news/2012/03/12/homeless/,89,20
https://en.wikipedia.org/wiki/Moscow,https://lenta.ru/news/2005/12/23/city/,none,0,0,0,0,0,https://en.wikipedia.org/wiki/Moscow,none,2733,598
...
Örneği indir

Örneği A-Parser nasıl aktaracağınız

eJx9VE1v4jAQ/SuR1UqtRGOg6mqVG6AidUWhS9u9UA5uMgE3jp21HaBC/Pcd5xPK
7t484zdvxjNvvCeWmcQ8aTBgDQkWe5IVZxKQ+x1LMwFeuIYw8d5ZmAguE+OxKPIy
plkKFrQhHYKGcadgsSAjBw6CIaIniMbbCGKWC0uWyw5BajyasdIpcykWlzeeVUoY
f/T8C9nhKuv5daaOh0aRvLGYDNdKF0epYiWE2lYGlxHsirOGiGsIbWHAjhtrSr96
V9WRhTZn4iRP6TrNxqUNVS5rptK49m4ul6R5yjPbwIvCp8RcQOseozXFDuHFRcQs
uFs/Lp59de3bnUUo9pFbriQTZT9cA9sevUr+O3fxUiEWj5qDGWuVostCQeCcn3Uv
F+SisAlS5EXszzKGBDETBjrEYKljhoVEX284DpJZpWeZqwf9e6LkQIgJbEC0sIJ/
mHMR4bQHMQY9VIF/h8zOOA7N845TbUBvNdbQsBTWcPbYRkVqolZ1MwRPuUXbjNxA
0NtFZwKQNT2bOliqNDRprM6hSY5yz0BGCBzWGhg1kx+UGpvW+ppW2prXurovNTUv
9TQ41dLgi44epC23plTS/e7YfJOtYgZZVRL50sUTVZw6QyVjvpph/zSPoEbm8gV3
eiZHyq2va6vMhUBVGJi36hyYSgXOaDp/FjwqUmBZ9Rp3SLGwP57LUjPNUf13rsAU
B3mctaIMmRCv88nxDWkVjcba2swElMbcrBPuS7DUq30CpGW+zqmEraH9br9Le33a
+04F23DJ6JuskSD9LU94hlNivtIr6iz6qEyotv+k6945uv4tDbn9rMgQZlQYgv7A
PsOnwW/g/zUhQ/fW8axVCgKMOarKfqhc44Y7+DkB05aHGOFIvtEuPuyORsDsWrB3
SlzrLKwU7jQO9rBsPtrmt96ffbfB/oDb8mGeSqSbrcOhD0VicBVI0Dv8AQ3PGZI=

ipucu

Sonuç Formatında Template Toolkit şablon motoru kullanılır.

Sonuç formatı nedir.

Sonuç dosyası adında dosya uzantısını csv olarak değiştirmeniz yeterlidir.

Görev Düzenleyici'de "Prepend text" seçeneğinin kullanılabilir olması için "More options" kısmını etkinleştirmeniz gerekir. "Prepend text" kısmına sütun adlarını virgülle ayırarak yazıyoruz ve ikinci satırı boş bırakıyoruz.

Backlink sayfasındaki harici bağlantıların JSON formatında dökümü

Sonuç formatı:

[% data = {}; 
data.query = query; data.links = [];
FOREACH item IN extlinks;
data.links.push(item.link);
END;
IF !firstString;
",\n";
ELSE;
firstString = 0;
END;
data.json %]

Başlangıç metni:

[% firstString = 1 %][

Bitiş metni:

]

Sonuç örneği:

[{"query":"https://tjournal.ru/ https://lenta.ru/articles/2016/02/15/deathlab/","links":["https://vc.ru/job","https://vc.ru/job/new","https://vc.ru/job","https://twitter.com/aktroitsky","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://twitter.com/aktroitsky/statuses/1382294384931188748","https://t.co/fD4AiCpbrV","https://twitter.com/aktroitsky/statuses/1382294384931188748"]}]

Sonuçların işlenmesi

A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde Check::BackLink veri kazıyıcı için en popüler kullanım durumlarını sunduk

Bir filtre ekleyin ve açılır listeden trust değişkenini $exists - Link exists seçin. Türünü seçin: String equal. Ardından String (Dize) alanına, backlink varlığını gösteren değeri 1 olarak girin. Bu filtreyle backlink içeren tüm sonuçları görüntüleyebilirsiniz.

Bir Result Builders (Sonuç Oluşturucu) ekleyin ve açılır listeden kaynak olarak $p1.extlinks.$i.link - Link seçin. Türünü seçin: Extract Top Domain. Böylece harici bağlantılardan alan adlarını alırız.

Filtre ve Sonuç Oluşturucu kullanım örneği
Örneği indir

Örneği A-Parser nasıl aktaracağınız

eJx9VNtuGjEQ/RVkIaWR6C4Qpar2jdAgpSIhJeSJ5MHZHcDBa29sLxch/r0z3hsp
bd88M2fO3H1gjtu1fTRgwVkWzQ8s828WsdsdTzMJrXgF8br1xuO1FGptW7AT1tnW
6G48u52yDsu4sWDIec6GhI2iGwSPEYzWBBY8l451DsztM0DehZAODJowEFkiVjCi
pjDNChx85FyicsNlTnIP3zpzQisULCjLjg2p3oAxIgHEiISCaJNyV0ZoONqwc76K
oAB8uWhXhbW+ttq+1Eoo68QXaV5e1MUlO76+VnnbkWcg0qwXlF2rjU98AzNdVAuN
eoTSA099Kgl3QNYqlcvA7YiBJ4mgKrksIlBnm6jPSnz4UpRGLD6NADsyOkWVA09A
yn2V3Zy1vcyQIve+vwofFi24tNBhFlMdcUwk+dMicBjcaTPxXUf9gWk1kHIMG5AN
zPPf5EImuAaDBTrdlY5/h0zOOI51eaehcKRbgznULF66mdw3Xoke62XVDClS4VC2
Q50rGkwXlWuArO7ZA8FSbaAO40wOdXA8gwwUrU8zsUHWqD5V8WkqJ8oDszo3MYab
dztzVi2czw8vghao3Fk0GR67mc5+6JQLRbM3hu8LU+XlaIu86xFdY60WYjkpt71K
IlczPOOJGmq6WOqYyqXEgVuYNos3sOWASaibeuY89CEwaH26mIOW9udT0YXMCEzp
mmpPcUanUUvKmEv5PB2fWlizrCisnMtsFIYLYVdrEShwYavSSVCOByYPFWxt2O/2
u2GvH/a+h5JvhOLhi6qQoIKtWIsMEsEDbZYhSeG9trHe/pOue010/aswFm5fkiHM
6jgG844jhL0NhPp/TsjQvSKelU5BgrUnWbl3HD8eL8HPCbhxIkYPIvkWdrGw6zAB
7laSv4WMWudgqfFccbA07/JzrT/ow9kXGx2OeAjv9rFA0mwJhzpcEut/y97xN4Qy
DUs=
ipucu

Sonuç oluşturucu, ihtiyacınız olduğu kadar çok kez eklenebilir.

Ayrıca bakınız:

Olası ayarlar

HTML::LinkExtractorHTML::LinkExtractor veri kazıyıcısının tüm ayarlarını ve ayrıca ek olarak şunları destekler:
Parametre adıVarsayılan değerAçıklama
Check robots.txtSayfa indekslemesinin robots.txt üzerinden yasaklanıp yasaklanmadığının kontrol edilip edilmeyeceğini belirler
Match link by substringBağlantı aramasının dize eşleşmesine göre yapılıp yapılmayacağını belirler. Bağlantıları şema belirtmeden, örneğin http protokolü belirtmeden alan adına göre kontrol edebilirsiniz