Ana içeriğe atla

SE::Rambler - Rambler arama sonuçları veri kazıyıcı

img

Veri kazıyıcı incelemesi

Rambler arama sonuçları veri kazıyıcısı. Rambler veri kazıyıcı sayesinde, daha sonraki kullanımlar için hazır büyük bağlantı veritabanları elde edebilirsiniz. Sorguları, arama operatörleri (site, ip vb.) dahil olmak üzere Rambler arama çubuğuna girdiğiniz şekilde kullanabilirsiniz.

A-Parser işlevselliği, Rambler veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması ayarlamanıza ve çok daha fazlasına olanak tanır. Mümkün olan maksimum sonuç sayısını elde etmek için otomatik sorgu çoğaltma, dosyalardan alt sorgu yerleştirme, sayısal-alfabetik kombinasyon ve liste tarama özelliklerini kullanabilirsiniz.

Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda çıktı almanıza olanak tanıyan yerleşik güçlü şablon oluşturucu Template Toolkit sayesinde ihtiyacınız olan biçim ve yapıda mümkündür.

Toplanan veriler

  • Arama sonuçlarındaki toplam sonuç sayısı
  • Arama sonuçlarından bağlantılar, çıpalar (anchor) ve snippet'ler
  • İlgili anahtar kelimelerin listesi (hints)

SE::Rambler veri kazıyıcısının topladığı veriler

Özellikler

  • Rambler arama operatörleri desteği (url:, site:, inurl:, host:, rhost:, domain:.)
  • Sayfa başına 10 ile 50 sonuç arası, toplam 25 sayfaya kadar veri çeker
  • İlgili anahtar kelimeleri ($hints) çeker
  • Captcha'ları aşmak için çözme servislerini kullanma imkanı
  • Arama sonuçları cihazı seçimi: standart masaüstü, mobil Android veya mobil iOS

Kullanım durumları

  • Bağlantı veritabanları toplama
  • Anahtar kelimeler için rekabet değerlendirmesi
  • Sitelerin backlinklerini (bahsedilmelerini) arama
  • Rambler arama sonuçlarının çekilmesi gereken tüm durumlar

Sorgular

Sorguları Rambler aramasında olduğu gibi belirtin. Diyelim ki sadece bir siteden gelen bağlantılara ihtiyacınız var. Sorgu alanına şunu giriyoruz:

"kapı satın al" site:http://kp.ru

Sorgu değişimleri

Sorguları çoğaltmak için yerleşik makroları kullanabilirsiniz; örneğin çok büyük bir forum veritabanı elde etmek istiyoruz, farklı dillerde birkaç ana sorgu belirtelim:

forum
forum
foro
论坛

Sorgu formatında a'dan zzzz'ye kadar karakter taraması belirtelim; bu yöntem arama sonuçlarını maksimum düzeyde döndürmeye ve birçok yeni benzersiz sonuç elde etmeye olanak tanır:

$query {az:a:zzzz}

Bu makro, her bir kaynak arama sorgusu için 475254 ek sorgu oluşturacaktır, bu da toplamda 4 x 475254 = 1901016 arama sorgusu eder; rakam etkileyici ancak bu A-Parser için hiç sorun değil. Dakikada 2000 sorgu hızıyla böyle bir görev sadece 16 saatte tamamlanacaktır.

Operatörlerin kullanımı

Sorgu formatında arama operatörlerini kullanabilirsiniz, böylece listenizdeki her sorguya otomatik olarak eklenecektir:

site:$query

Sonuç çıktı seçenekleri

A-Parser, yerleşik şablon oluşturucu Template Toolkit sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda çıktı almasına olanak tanır.

Bağlantı listesi dışa aktarma

SE::Google ile aynıdır.

SE::Google ile aynıdır.

SE::Google ile aynıdır.

Sonuç formatı:

$hints.format('$hint\n')

Sonuç örneği:

habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
elektronik muhasebeci
elba adası
elba elektronik muhasebeci
habrahabr
...

SQL formatında kaydetme

SE::Google ile aynıdır.

Sonuçları JSON formatında dökme

SE::Google ile aynıdır.

Sonuçların işlenmesi

A-Parser, sonuçları doğrudan veri çekme sırasında işlemenize olanak tanır; bu bölümde Rambler veri kazıyıcı için en popüler senaryoları sunduk

SE::Google ile aynıdır.

SE::Google ile aynıdır.

Alan adlarını ayıklama

SE::Google ile aynıdır.

Çıpalardan ve snippet'lerden etiketleri kaldırma

SE::Google ile aynıdır.

SE::Google ile aynıdır.

Olası ayarlar

Parametre adıVarsayılan değerAçıklama
DeviceDesktopArama sonuçları cihazı seçimi: standart masaüstü, mobil Android veya mobil iOS
Pages count5Veri çekilecek sayfa sayısı (1 ile 25 arası)
Links per page10Sayfa başına sonuç sayısı (10/15/30/50)
Rambler region IDBölge belirleme imkanı. Bölge ID'si belirtilmelidir. Gerekli bölge ID'sinin nasıl öğrenileceği burada açıklanmıştır
SortSites by relevanceSonuç sıralama seçeneği
Results filteringModerateSonuç filtreleme seçeneği
Results languageAny languageSonuç arama dili seçimi
Serp timeAnytimeSonuç periyodu seçimi
Results typeAny formatSonuç türü seçimi (mime type)
Exact matchSorgu ile tam eşleşme
Disable autocorrectOtomatik düzeltmeyi devre dışı bırakır, sonuçların tam olarak belirtilen sorguya göre çekilmesini sağlar
Use sessionsİyi oturumları kaydeder, bu da daha az hata alarak daha hızlı veri çekilmesini sağlar
AntiGate presetdefaultCaptcha'ları aşmak için Util::AntiGateUtil::AntiGate kullanılıp kullanılmayacağını belirler