SE::DuckDuckGo - DuckDuckGo arama sonuçları için veri kazıyıcı

DuckDuckGo Veri Kazıyıcı İncelemesi
DuckDuckGo arama sonuçları veri kazıyıcı. DuckDuckGo veri kazıyıcı sayesinde, daha sonraki kullanımlar için hazır büyük bağlantı veritabanları elde edebilirsiniz. Sorguları, arama operatörleri (intitle, inurl, site vb.) dahil olmak üzere Dogpile arama çubuğuna girdiğiniz şekilde kullanabilirsiniz. Daha fazla ayrıntı resmi DuckDuckGo Search Syntax sayfasında yer almaktadır.
A-Parser işlevselliği, DuckDuckGo veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması ayarlamanıza ve çok daha fazlasına olanak tanır. Mümkün olan maksimum sonuç sayısını elde etmek için otomatik sorgu çoğaltma, dosyalardan alt sorgu ekleme, alfanümerik kombinasyonları ve listeleri tarama özelliklerini kullanabilirsiniz.
Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçimde ve yapıda mümkündür.
Toplanan Veriler
- Arama sonuçlarından bağlantılar, çıpalar (anchor) ve snippet'ler

Özellikler
- Tüm DuckDuckGo arama operatörleri desteği (intitle:, inurl:, site: vb.). Arama operatörleri hakkında daha fazla ayrıntı resmi DuckDuckGo Search Syntax sayfasında
- Bing tarafından sunulan maksimum sonuç sayısını çeker - arama sonuçlarında 10 sayfa x 10 öğe
- Toplam sonuç sayısı - 100
- Seçilen konuma göre veri çekme imkanı (Location seçeneği)
- Arama sonuçları dilini seçme imkanı (Language seçeneği)
Kullanım Senaryoları
- Bağlantı veritabanı toplama - A-Poster, XRumer, AllSubmitter vb. için.
- Sitelerin indekslenme durumunu kontrol etme
- Sitelerin backlinklerini (bahsedilmelerini) arama
- DuckDuckGo veri çekme işlemini içeren diğer tüm varyasyonlar
Sorgular
Sorgu olarak arama ifadelerini belirtmeniz gerekir, örneğin:
Football
test
site:a-parser.com
veri kazıyıcı site:a-parser.com
test -site:tests.com
IoT filetype:pdf
Sorgu Değişimleri
Sorguları çoğaltmak için yerleşik makroları kullanabilirsiniz, örneğin çok büyük bir forum veritabanı elde etmek istiyoruz, farklı dillerde birkaç ana sorgu belirtelim:
forum
forum
foro
论坛
Sorgu formatında a'dan zzzz'ye kadar karakter taramasını belirtelim; bu yöntem arama sonuçlarını maksimum düzeyde döndürmenize ve birçok yeni benzersiz sonuç elde etmenize olanak tanır:
$query {az:a:zzzz}
Bu makro, her bir kaynak arama sorgusu için 475254 ek sorgu oluşturacaktır; bu da toplamda 4 x 475254 = 1901016 arama sorgusu eder. Bu rakam etkileyici olsa da A-Parser için hiç sorun değildir. Dakikada 2000 sorgu hızıyla bu görev sadece 16 saatte tamamlanacaktır.
Operatörlerin Kullanımı
Sorgu formatında arama operatörlerini kullanabilirsiniz, böylece listenizdeki her sorguya otomatik olarak eklenecektir:
site:$query
Sonuç Çıktı Seçenekleri
A-Parser, yerleşik şablon motoru Template Toolkit sayesinde esnek sonuç formatlamayı destekler; bu da sonuçları rastgele formlarda ve CSV veya JSON gibi yapılandırılmış formatlarda çıktı almasına olanak tanır.
Bağlantı listesi dışa aktarma
Pozisyon çıktısı ile bağlantılar + çıpalar + snippet'ler
Bağlantıları, çıpaları ve snippet'leri CSV tablosuna aktarma
İlgili anahtar kelimeleri kaydetme
Bağlantı indeksleme kontrolü
SQL formatında kaydetme
Sonuçları JSON olarak dökme
Sonuçların İşlenmesi
A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde DuckDuckGo veri kazıyıcı için en popüler senaryoları sunduk.
Bağlantı deduplikasyonu
Alan adına göre bağlantı deduplikasyonu
Alan adlarını ayıklama
Çıpalardan ve snippet'lerden etiketleri kaldırma
İçeriğe göre bağlantı filtreleme
Olası Ayarlar
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Pages count | 5 | Veri çekilecek sayfa sayısı (1 ile 10 arası) |
| Region | US (English) | Konum seçimi |
| Language | English (United States) | Dil seçimi |
| Safe search | Moderate | "Safe search"yı etkinleştirme imkanı |
| Serp time | Any time | Arama periyodu |
| Use HTTP/2 | ☐ | HTTP/1.1 yerine HTTP/2 kullanılıp kullanılmayacağını belirler |
| User agent | Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0 | Sayfa istenirken kullanılacak User-Agent başlığı |