SE::Rambler - Rambler arama sonuçları veri kazıyıcı

Veri kazıyıcı incelemesi
Rambler arama sonuçları veri kazıyıcısı. Rambler veri kazıyıcı sayesinde, daha sonraki kullanımlar için hazır büyük bağlantı veritabanları elde edebilirsiniz. Sorguları, arama operatörleri (site, ip vb.) dahil olmak üzere Rambler arama çubuğuna girdiğiniz şekilde kullanabilirsiniz.
A-Parser işlevselliği, Rambler veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması ayarlamanıza ve çok daha fazlasına olanak tanır. Mümkün olan maksimum sonuç sayısını elde etmek için otomatik sorgu çoğaltma, dosyalardan alt sorgu yerleştirme, sayısal-alfabetik kombinasyon ve liste tarama özelliklerini kullanabilirsiniz.
Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon oluşturucu Template Toolkit sayesinde ihtiyacınız olan biçim ve yapıda mümkündür.
Toplanan veriler
- Arama sonuçlarındaki toplam sonuç sayısı
- Arama sonuçlarından bağlantılar, çıpalar (anchor) ve snippet'ler
- İlgili anahtar kelimelerin listesi (hints)

Özellikler
- Rambler arama operatörleri desteği (url:, site:, inurl:, host:, rhost:, domain:.)
- Sayfa başına 10 ile 50 sonuç arası, toplam 25 sayfaya kadar veri çeker
- İlgili anahtar kelimeleri ($hints) çeker
- Captcha'ları aşmak için çözme servislerini kullanma imkanı
- Arama sonuçları cihazı seçimi: standart masaüstü, mobil Android veya mobil iOS
Kullanım durumları
- Bağlantı veritabanları toplama
- Anahtar kelimeler için rekabet değerlendirmesi
- Sitelerin backlinklerini (bahsedilmelerini) arama
- Rambler arama sonuçlarının çekilmesi gereken tüm durumlar
Sorgular
Sorguları Rambler aramasında olduğu gibi belirtin. Diyelim ki sadece bir siteden gelen bağlantılara ihtiyacınız var. Sorgu alanına şunu giriyoruz:
"kapı satın al" site:http://kp.ru
Sorgu değişimleri
Sorguları çoğaltmak için yerleşik makroları kullanabilirsiniz; örneğin çok büyük bir forum veritabanı elde etmek istiyoruz, farklı dillerde birkaç ana sorgu belirtelim:
forum
forum
foro
论坛
Sorgu formatında a'dan zzzz'ye kadar karakter taraması belirtelim; bu yöntem arama sonuçlarını maksimum düzeyde döndürmeye ve birçok yeni benzersiz sonuç elde etmeye olanak tanır:
$query {az:a:zzzz}
Bu makro, her bir kaynak arama sorgusu için 475254 ek sorgu oluşturacaktır, bu da toplamda 4 x 475254 = 1901016 arama sorgusu eder; rakam etkileyici ancak bu A-Parser için hiç sorun değil. Dakikada 2000 sorgu hızıyla böyle bir görev sadece 16 saatte tamamlanacaktır.
Operatörlerin kullanımı
Sorgu formatında arama operatörlerini kullanabilirsiniz, böylece listenizdeki her sorguya otomatik olarak eklenecektir:
site:$query
Sonuç çıktı seçenekleri
A-Parser, yerleşik şablon oluşturucu Template Toolkit sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda çıktı almasına olanak tanır.
Bağlantı listesi dışa aktarma
Bağlantılar + çıpalar + konum çıktılı snippet'ler
Bağlantıları, çıpaları ve snippet'leri CSV tablosuna aktarma
İlgili anahtar kelimeleri kaydetme
Sonuç formatı:
$hints.format('$hint\n')
Sonuç örneği:
habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
elektronik muhasebeci
elba adası
elba elektronik muhasebeci
habrahabr
...
SQL formatında kaydetme
Sonuçları JSON formatında dökme
Sonuçların işlenmesi
A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde Rambler veri kazıyıcı için en popüler senaryoları sunduk
Bağlantı deduplikasyonu
Alan adına göre bağlantı deduplikasyonu
Alan adlarını ayıklama
Çıpalardan ve snippet'lerden etiketleri kaldırma
İçeriğe göre bağlantı filtreleme
Olası ayarlar
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Device | Desktop | Arama sonuçları cihazı seçimi: standart masaüstü, mobil Android veya mobil iOS |
| Pages count | 5 | Veri çekilecek sayfa sayısı (1 ile 25 arası) |
| Links per page | 10 | Sayfa başına sonuç sayısı (10/15/30/50) |
| Rambler region ID | Bölge belirleme imkanı. Bölge ID'si belirtilmelidir. Gerekli bölge ID'sinin nasıl öğrenileceği burada açıklanmıştır | |
| Sort | Sites by relevance | Sonuç sıralama seçeneği |
| Results filtering | Moderate | Sonuç filtreleme seçeneği |
| Results language | Any language | Sonuç arama dili seçimi |
| Serp time | Anytime | Sonuç periyodu seçimi |
| Results type | Any format | Sonuç türü seçimi (mime type) |
| Exact match | ☐ | Sorgu ile tam eşleşme |
| Disable autocorrect | ☐ | Otomatik düzeltmeyi devre dışı bırakır, sonuçların tam olarak belirtilen sorguya göre çekilmesini sağlar |
| Use sessions | ☑ | İyi oturumları kaydeder, bu da daha az hata alarak daha hızlı veri çekilmesini sağlar |
| AntiGate preset | default | Captcha'ları aşmak için Util::AntiGate kullanılıp kullanılmayacağını belirler |
