Ana içeriğe atla

Sonuç Oluşturucu

Result Builders (Sonuç Oluşturucu), her bir veri kazıyıcıdan gelen sonuçları biçimlendirmeden ve diske kaydetmeden önce dönüştürmenize olanak tanır

Özellikler

  • Sonucun düzenli ifade (regex) veya rastgele bir ayırıcı kullanılarak parçalara bölünmesi
  • Sonuç içindeki bir alt dizenin değiştirilmesi veya düzenli ifade ile değiştirme
  • Bir bağlantıdan alan adının (domain) veya ana alan adının ayıklanması
  • Sonucun büyük/küçük harfe dönüştürülmesi
  • HTML etiketlerinin kaldırılması (<b>text</b> -> text)
  • HTML varlıklarının Unicode karşılıklarına dönüştürülmesi (&copy; -> ©)
  • XPath sorguları kullanarak veri çekme
Sonuç Oluşturucu

Örnekler

Alan adı veri çekme

Arama motorlarından bağlantıları çekerken sadece alan adlarının kaydedilmesi:

Alan adı veri çekme

Kaynak olarak birinci veri kazıyıcıdan gelen serp dizisindeki link öğeleri kullanılır; her öğeye bağlantıdan ana alan adını ayıklama işlevi uygulanır ve yeni sonuç aynı adla (serp dizisindeki link öğesi) kaydedilir - bu nedenle sonuç biçimini değiştirmeye gerek yoktur

Temizleme ile snippet veri çekme

Arama motorlarından snippet'lerin HTML etiketlerinden temizlenerek ve HTML varlıkları dönüştürülerek kaydedilmesi

Varsayılan olarak, çapa metinleri (anchors) ve snippet'ler tüm iç içe geçmiş etiketlerle birlikte çekilir, bu da arama motoru sonuç sayfasındakiyle aynı biçimlendirmenin korunmasını sağlar. Sadece temiz metne ihtiyacınız varsa Sonuç Oluşturucu özelliklerini kullanabilirsiniz:

Temizleme ile snippet veri çekme

Bu örnekte, snippet'lere sırasıyla iki Sonuç Oluşturucu uygulanmıştır: HTML etiketlerinin kaldırılması ve HTML varlıklarının dönüştürülmesi

XPath ile veri çekme

XPath kullanarak arama sonuçlarından bağlantıların çekilmesi:

XPath ile veri çekme

Bu örnekte Google arama motorundan bağlantıların çekilmesi gösterilmektedir. Kullanılan XPath sorgusu:

//*[@id="rso"]/div[3]/div/div[1]/a/@href