Ana içeriğe atla

SE::DuckDuckGo - DuckDuckGo arama sonuçları için veri kazıyıcı

DuckDuckGo

DuckDuckGo Veri Kazıyıcı İncelemesi

DuckDuckGo arama sonuçları veri kazıyıcı. DuckDuckGo veri kazıyıcı sayesinde, daha sonraki kullanımlar için hazır büyük bağlantı veritabanları elde edebilirsiniz. Sorguları, arama operatörleri (intitle, inurl, site vb.) dahil olmak üzere Dogpile arama çubuğuna girdiğiniz şekilde kullanabilirsiniz. Daha fazla ayrıntı resmi DuckDuckGo Search Syntax sayfasında yer almaktadır.

A-Parser işlevselliği, DuckDuckGo veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması ayarlamanıza ve çok daha fazlasına olanak tanır. Mümkün olan maksimum sonuç sayısını elde etmek için otomatik sorgu çoğaltma, dosyalardan alt sorgu ekleme, alfanümerik kombinasyonları ve listeleri tarama özelliklerini kullanabilirsiniz.

Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçimde ve yapıda mümkündür.

Toplanan Veriler

  • Arama sonuçlarından bağlantılar, çıpalar (anchor) ve snippet'ler
Toplanan Veriler

Özellikler

  • Tüm DuckDuckGo arama operatörleri desteği (intitle:, inurl:, site: vb.). Arama operatörleri hakkında daha fazla ayrıntı resmi DuckDuckGo Search Syntax sayfasında
  • Bing tarafından sunulan maksimum sonuç sayısını çeker - arama sonuçlarında 10 sayfa x 10 öğe
  • Toplam sonuç sayısı - 100
  • Seçilen konuma göre veri çekme imkanı (Location seçeneği)
  • Arama sonuçları dilini seçme imkanı (Language seçeneği)

Kullanım Senaryoları

  • Bağlantı veritabanı toplama - A-Poster, XRumer, AllSubmitter vb. için.
  • Sitelerin indekslenme durumunu kontrol etme
  • Sitelerin backlinklerini (bahsedilmelerini) arama
  • DuckDuckGo veri çekme işlemini içeren diğer tüm varyasyonlar

Sorgular

Sorgu olarak arama ifadelerini belirtmeniz gerekir, örneğin:

Football  
test
site:a-parser.com
veri kazıyıcı site:a-parser.com
test -site:tests.com
IoT filetype:pdf

Sorgu Değişimleri

Sorguları çoğaltmak için yerleşik makroları kullanabilirsiniz, örneğin çok büyük bir forum veritabanı elde etmek istiyoruz, farklı dillerde birkaç ana sorgu belirtelim:

forum
forum
foro
论坛

Sorgu formatında a'dan zzzz'ye kadar karakter taramasını belirtelim; bu yöntem arama sonuçlarını maksimum düzeyde döndürmenize ve birçok yeni benzersiz sonuç elde etmenize olanak tanır:

$query {az:a:zzzz}

Bu makro, her bir kaynak arama sorgusu için 475254 ek sorgu oluşturacaktır; bu da toplamda 4 x 475254 = 1901016 arama sorgusu eder. Bu rakam etkileyici olsa da A-Parser için hiç sorun değildir. Dakikada 2000 sorgu hızıyla bu görev sadece 16 saatte tamamlanacaktır.

Operatörlerin Kullanımı

Sorgu formatında arama operatörlerini kullanabilirsiniz, böylece listenizdeki her sorguya otomatik olarak eklenecektir:

site:$query

Sonuç Çıktı Seçenekleri

A-Parser, yerleşik şablon motoru Template Toolkit sayesinde esnek sonuç formatlamayı destekler; bu da sonuçları rastgele formlarda ve CSV veya JSON gibi yapılandırılmış formatlarda çıktı almasına olanak tanır.

Bağlantı listesi dışa aktarma

SE::Google ile aynıdır.

SE::Google ile aynıdır.

SE::Google ile aynıdır.

SE::Google ile aynıdır.

Bağlantı indeksleme kontrolü

SE::Google ile aynıdır.

SQL formatında kaydetme

SE::Google ile aynıdır.

Sonuçları JSON olarak dökme

SE::Google ile aynıdır.

Sonuçların İşlenmesi

A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde DuckDuckGo veri kazıyıcı için en popüler senaryoları sunduk.

SE::Google ile aynıdır.

SE::Google ile aynıdır.

Alan adlarını ayıklama

SE::Google ile aynıdır.

Çıpalardan ve snippet'lerden etiketleri kaldırma

SE::Google ile aynıdır.

SE::Google ile aynıdır.

Olası Ayarlar

Parametre adıVarsayılan değerAçıklama
Pages count5Veri çekilecek sayfa sayısı (1 ile 10 arası)
RegionUS (English)Konum seçimi
LanguageEnglish (United States)Dil seçimi
Safe searchModerate"Safe search"yı etkinleştirme imkanı
Serp timeAny timeArama periyodu
Use HTTP/2HTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler
User agentMozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0Sayfa istenirken kullanılacak User-Agent başlığı