Ana içeriğe atla

Sonuç deduplikasyonu

Deduplikasyon, sonuç deduplikasyonu, kopyaların silinmesi, tekrarların kaldırılması - tüm bunlar tekrarlanan sonuçlara ihtiyacımız olmadığı anlamına gelir. A-Parser içerisinde 2 deduplikasyon yöntemi bulunmaktadır, her birini detaylıca inceleyelim.

Satır bazlı deduplikasyon

Bu yöntem sonuç oluşturma işleminden sonra çalışır, sonuç dosyaya yazılmadan hemen önce her satır benzersizlik açısından kontrol edilir ve dosyaya sadece yeni benzersiz satırlar kaydedilir.

ipucu

Ayrıca bakınız: Sorgu işleme sırası

Satır bazlı benzersizliği Hızlı Görev kısmından etkinleştirebilirsiniz:

Hızlı Görevde satır bazlı sonuç benzersizliği seçeneği

Veya Görev Düzenleyici içerisinde:

Görev Düzenleyici'de Satır bazında deduplikasyon seçeneği

Herhangi bir sonuca göre deduplikasyon

Herhangi bir sonuca göre deduplikasyon, belirli bir veri kazıyıcıdan gelen seçili sonuç üzerinde doğrudan deduplikasyon yapılmasına olanak tanır. Bu deduplikasyon türünü Görev Düzenleyici'de, veri kazıyıcının sağındaki araç simgesine tıklayıp Add unique result (Deduplikasyon ekle) diyerek ekleyebilirsiniz:

Görev Düzenleyici'de Deduplikasyon ekle seçeneği

Şimdi hangi sonuç üzerinde deduplikasyon yapılacağını ve deduplikasyon türünü seçebilirsiniz:

Görev Düzenleyici'de deduplikasyon türü
not

Global anahtarı, 2 veya daha fazla veri kazıyıcı seçildiğinde kullanılır; ortak bir deduplikasyon mu yoksa her veri kazıyıcı için ayrı mı yapılacağını belirler.

Deduplikasyon türleri

ParametreAçıklama
StringSatır bazlı deduplikasyon (sonuç satırının tamamı karşılaştırılır)
DomainAlan adına göre deduplikasyon (alan adının tamamı karşılaştırılır, örneğin www.domain.com ve domain.com farklı alan adlarıdır)
Top Level domainBölgesel, ticari, eğitim ve diğer alan adları dikkate alınarak ana alan adına göre deduplikasyon (örneğin domain.co.uk ve domain2.co.uk farklı alan adlarıdır, ancak sub1.domain.com ve sub2.domain.com aynıdır)
2. Seviye Alan Adı2. seviye alan adına göre deduplikasyon (ikinci seviye alan adları karşılaştırılır, örneğin www.domain.com, domain.com ve user.subdomain.domain.com'un hepsi tek bir alan adıdır)
PathYola göre deduplikasyon (bağlantının dosyaya kadar olan kısımları karşılaştırılır, örneğin http://domain.com/path1/file.php ve http://domain.com/path1/file2.php - bağlantının dosyaya kadar olan kısımları aynıdır)
Without paramsParametresiz bağlantıya göre deduplikasyon (bağlantılar parametreler olmadan karşılaştırılır, örneğin http://domain.com/file.php?page=1 ve http://domain.com/file.php?page=2 - aynı bağlantılardır)

Sorgu deduplikasyonu

Sorgu deduplikasyonu, yalnızca mevcut görevde daha önce veri çekme işlemi yapılmamış benzersiz sorguları doğrudan veri çekme işlemine gönderir. Temel kullanım durumları:

  • Kaynak sorgularda kopyalar varsa ve bunların kazınması istenmiyorsa (çift iş yükü)
  • Parse to level seçeneğini kullanırken, sorguların büyümesini ve döngüye girmesini önlemek için yalnızca benzersiz sorguların kullanılması gerekir (örneğin HTML::LinkExtractorHTML::LinkExtractor veri kazıyıcı kullanıldığında)
not

Diğer tüm durumlarda, sorgu deduplikasyonunun gereksiz kullanımı veri kazıyıcının genel çalışma hızını yavaşlatacaktır

Görevler arasında deduplikasyon kaydı

Gelecekteki görevlerde kullanmak üzere deduplikasyon veritabanını kaydetme imkanı vardır; bu, yeni görevlerde yalnızca yeni benzersiz sonuçların kaydedilmesine olanak tanır (örneğin SE::GoogleSE::Google ile SERP veri çekme işlemi sırasında bağlantılar)

Deduplikasyon veritabanını kaydetmek için ilk görevi eklerken yeni bir veritabanı adı oluşturmanız gerekir:

Görev Düzenleyici'de deduplikasyon veritabanını kaydetme

Sonraki tüm görevler için önceden oluşturulmuş veritabanı adını seçmeniz gerekir; böylece sonuçların ilk görevdekiyle aynı dosyaya mı yoksa yeni bir dosyaya mı yazıldığına bakılmaksızın yalnızca yeni benzersiz sonuçlar kaydedilecektir.