Ana içeriğe atla

SE::Yandex::SQI - Yandex Site Kalite İndeksi Kontrolü

Veri kazıyıcı incelemesi

Veri kazıyıcı incelemesiSE::Yandex::SQISE::Yandex::SQI – Yandex'teki site kalite indeksini kontrol eder. Dakikada 3000-7000 sorgu hızıyla inanılmaz derecede hızlı bir veri kazıyıcıdır.

Mümkün olan maksimum sonuç sayısını elde etmek için otomatik sorgu çoğaltma, dosyalardan alt sorgu yerleştirme, alfanümerik kombinasyonlar ve liste yinelemelerini kullanabilirsiniz. Sonuç filtreleme özelliğini kullanarak, (negatif anahtar kelimeler aracılığıyla) tüm gereksiz çöpleri temizleyip sonucu anında optimize edebilirsiniz.

A-Parser işlevselliği, SE::Yandex::SQI veri kazıyıcı ayarlarını daha sonra kullanmak üzere kaydetmenize (presetler), veri çekme zamanlaması ayarlamanıza ve çok daha fazlasına olanak tanır.

Sonuçların kaydedilmesi, sonuçlara ek mantık uygulamanıza ve verileri JSON, SQL ve CSV dahil olmak üzere çeşitli formatlarda dışa aktarmanıza olanak tanıyan yerleşik güçlü şablon motoru Template Toolkit sayesinde ihtiyacınız olan biçim ve yapıda mümkündür.

Toplanan veriler

  • Site Kalite İndeksi (Yandex SQI)
  • Sitenin sahip olduğu rozetler hakkındaki veriler (1 - rozet alındı, 0 - rozet yok):
    • Kullanıcıların seçimi
    • Popüler site
    • Güvenli bağlantı
    • Turbo sayfalar
    • Sitenin resmi olup olmadığı
  • "Kullanıcıların seçimi" ve "Popüler site" rozetleri için, rozeti almaya hazır olma derecesini 0 ile 1 arasında bir ara değer olarak (örneğin 0.4) alabilirsiniz.
  • Yorum sayısı, puanlama ve reyting
  • Ürün aramasındaki mağaza reytingi ve Yandex Market'teki mağaza reytingi (eğer bu veriler aranan site için mevcutsa)

Kullanım senaryoları

  • Yandex açısından sitenin faydasının değerlendirilmesi
  • Başlıkların (title) toplanması

Sorgular

Sorgu olarak aranan sitenin alan adını belirtmeniz gerekir. Hem protokol ile hem de protokol olmadan belirtebilirsiniz, örneğin:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Sonuç çıktı örnekleri

A-Parser, yerleşik Template Toolkit şablon motoru sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları rastgele bir formda veya CSV ya da JSON gibi yapılandırılmış bir biçimde çıktı almanıza olanak tanır.

Varsayılan çıktı

Sonuç formatı:

$query: $sqi\n

Başlangıç sorgusunun ve SQI değerinin görüntülendiği sonuç örneği:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Eğer alan adı için SQI mevcut değilse, sonuçta -1 görünecektir.

CSV tablosuna çıktı

Sonuç formatı:

[% tools.CSVline(query, sqi, rating); %]

Dosya adı:

$datefile.format().csv

Başlangıç metni:

Alan Adı,Reyting,Yazar,Fiyat

ipucu

"Prepend text" seçeneğinin Görev Düzenleyici'de görünmesi için "More options" kısmını etkinleştirmeniz gerekir. "Prepend text" alanına sütun adlarını virgülle ayırarak yazıyoruz ve ikinci satırı boş bırakıyoruz.

SQL formatında kaydetme

Sonuç formatı:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Sonuç örneği:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Sonuçların JSON formatında dökümü

Genel sonuç formatı:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Başlangıç metni:

[

Bitiş metni:

]

Sonuç örneği:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
ipucu

"Prepend text" ve "Append text" seçeneklerinin Görev Düzenleyici'de görünmesi için "More options" kısmını etkinleştirmeniz gerekir.

Olası ayarlar

ParametreVarsayılan değerAçıklama
AntiGate presetdefaultUtil::AntiGateUtil::AntiGate preseti seçimi, ayar hakkında detaylar burada
AntiGate preset for old captchadefaultAntiGate preset ile benzerdir, ancak yalnızca normal (eski, tek resim şeklindeki) captchalar için kullanılır. Burada bir preset seçilmezse, bu tür captchalar için AntiGate preset içinde seçilen preset kullanılır.
Experimental img captcha max count5Deneme başına maksimum tekrar eden captcha resmi sayısı
Preffered captcha typeClickTercih edilen captcha türünün seçimi: Click veya Puzzle
Use sessionsİyi oturumları kaydederek daha az hata ile daha hızlı veri çekilmesini sağlar