SE::Baidu - Baidu arama sonuçları Veri Kazıyıcı

Veri kazıyıcı incelemesi
Baidu arama sonuçları veri kazıyıcı. Baidu veri kazıyıcı sayesinde, daha sonraki kullanımlar için hazır devasa bağlantı veritabanları elde edebilirsiniz. Sorguları, arama operatörleri (filetype, site, intitle) dahil olmak üzere Bing arama çubuğuna girdiğiniz şekilde kullanabilirsiniz.
A-Parser işlevselliği, Baidu veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme planı oluşturmanıza ve çok daha fazlasına olanak tanır. Mümkün olan maksimum sonuç sayısını elde etmek için otomatik sorgu çoğaltma, dosyalardan alt sorgu yerleştirme, sayısal-alfabetik kombinasyonları ve listeleri tarama özelliklerini kullanabilirsiniz.
Baidu veri kazıyıcıda, sonuçların ihtiyacınız olan biçimde ve yapıda kaydedilmesi mümkündür; bu, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde gerçekleşir.
Veri kazıyıcı kullanım örnekleri
🔗 Baidu tam bağlantılarını veri çekme
Bu kaynakta tam bağlantıların nasıl çekilebileceği gösterilmektedir
🔗 Baidu İpuçları
Baidu ipuçlarının çok seviyeli veri çekme işlemi
🔗 JS veri kazıyıcı JS::SE::Baidu::Suggest
JS veri kazıyıcılar oluşturma. Baidu ipuçlarını alma
Toplanan veriler
- Bağlantılar
- Snippet'ler
- Çapalar (Anchors)
- Toplam sonuç sayısı
- İlgili kelimeler listesi
- Sonuç sayfası sayısı

Özellikler
- Sorgu başına 5000 sonuca kadar veri çeker
- Tüm Baidu arama operatörlerini (filetype:, site:, intitle:) destekler.
- Sorguya göre sonuçları ve ilgili anahtar kelimeleri toplar
- Kısaltılmış bağlantıları tam bağlantılara dönüştürme (Get full links seçeneği)
Kullanım durumları
- Bağlantı veritabanı toplama - A-Poster, XRumer, AllSubmitter vb. için.
- Anahtar kelimeler için rekabet değerlendirmesi
- Sitelerin indekslenme durumunu kontrol etme
- Sayfa başlığında belirtilen anahtar kelimeleri içeren sayfaları toplama
Sorgular
Sorgu olarak arama terimlerini belirtmeniz gerekir, örneğin:
test
site:www.baidu.com
百度产品大全
intitle:veri kazıyıcı
Sorgu değişimleri
Sorguları çoğaltmak için yerleşik makroları kullanabilirsiniz, örneğin çok büyük bir forum veritabanı elde etmek istiyorsak, farklı dillerde birkaç ana sorgu belirtelim:
forum
forum
foro
论坛
Sorgu formatında a'dan zzzz'ye kadar karakter taramasını belirtelim; bu yöntem arama sonuçlarını maksimum düzeyde döndürmeye ve birçok yeni benzersiz sonuç elde etmeye olanak tanır:
$query {az:a:zzzz}
Bu makro, her bir kaynak arama sorgusu için 475254 ek sorgu oluşturacaktır; bu da toplamda 4 x 475254 = 1901016 arama sorgusu eder. Rakam etkileyici olsa da A-Parser için bu hiç sorun değildir. Dakikada 2000 sorgu hızıyla bu görev sadece 16 saatte tamamlanacaktır.
Operatör kullanımı
Sorgu formatında arama operatörlerini kullanabilirsiniz, böylece listenizdeki her sorguya otomatik olarak eklenecektir:
site:$query
Sonuç çıktı seçenekleri
A-Parser, yerleşik şablon motoru Template Toolkit sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları serbest formda veya CSV veya JSON gibi yapılandırılmış bir biçimde çıktı almanıza olanak tanır.
Bağlantı listesi dışa aktarma
Bağlantılar + çapalar + pozisyon çıktılı snippet'ler
Bağlantıları, çapaları ve snippet'leri CSV tablosuna aktarma
İlgili anahtar kelimeleri kaydetme
Anahtar kelime rekabeti
Bağlantı indeksleme kontrolü
SQL formatında kaydetme
Sonuçları JSON formatında dökme
Sonuç işleme
A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde Baidu veri kazıyıcı için en popüler senaryoları sunduk.
Bağlantı deduplikasyonu
Alan adına göre bağlantı deduplikasyonu
Alan adlarını ayıklama
Çapa ve snippet'lerden etiketleri kaldırma
İçeriğe göre bağlantı filtreleme
Olası ayarlar
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Pages count | 5 | Veri çekilecek sayfa sayısı (1 ile 100 arası) |
| Links per page | 50 | Her sayfa için sonuçlardaki bağlantı sayısı (10 / 20 / 50) |
| Get full links | ☐ | Kısaltılmış bağlantıları tam bağlantılara dönüştürme (varsayılan olarak kapalıdır) |