Vai al contenuto principale

SE::Yandex::SQI - Controllo dell'Indice di Qualità del Sito (SQI) su Yandex

Panoramica dello scraper

Panoramica dello scraperSE::Yandex::SQISE::Yandex::SQI – verifica dell'indice di qualità del sito (SQI) in Yandex. Scraper incredibilmente veloce, velocità di lavoro 3000-7000 query al minuto.

È possibile utilizzare la generazione automatica delle query, la sostituzione di sotto-query da file, l'iterazione di combinazioni alfanumeriche e liste per ottenere il massimo numero possibile di risultati. Utilizzando la filtrazione dei risultati è possibile pulire immediatamente l'output, rimuovendo tutta la spazzatura non necessaria (utilizzando le parole negative).

La funzionalità di A-Parser consente di salvare le impostazioni di scraping dello scraper SE::Yandex::SQI per un uso futuro (preset), impostare pianificazioni di scraping e molto altro.

Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, inclusi JSON, SQL e CSV.

Dati raccolti

  • Indice di qualità del sito (Yandex SQI)
  • Dati sulla presenza di badge per il sito (1 - badge ottenuto, 0 - badge assente):
    • Scelta degli utenti
    • Sito popolare
    • Connessione protetta
    • Pagine Turbo
    • Se il sito è ufficiale
  • Per i badge "Scelta degli utenti" e "Sito popolare" è possibile ottenere il grado di preparazione per l'ottenimento del badge come valore intermedio da 0 a 1, ad esempio 0.4.
  • Numero di recensioni, valutazione e rating
  • Rating del negozio nella ricerca prodotti e rating del negozio su Yandex Market (se questi dati sono disponibili per il sito cercato)

Casi d'uso

  • Valutazione dell'utilità del sito dal punto di vista di Yandex
  • Raccolta dei titoli (title)

Query

Come query è necessario indicare il dominio del sito cercato. È possibile indicarli sia con il protocollo che senza, ad esempio:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Opzioni di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON

Output predefinito

Formato del risultato:

$query: $sqi\n

Esempio di risultato, in cui viene mostrata la query iniziale e il suo SQI:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Se l'SQI per il dominio non è disponibile, il risultato sarà -1.

Output in tabella CSV

Formato del risultato:

[% tools.CSVline(query, sqi, rating); %]

Nome del file:

$datefile.format().csv

Testo iniziale:

Dominio,Rating,Autore,Prezzo

suggerimento

Affinché l'opzione "Prepend text" sia disponibile nell'Editor delle attività, è necessario attivare "More options". Nel "Prepend text" scriviamo i nomi delle colonne separati da virgola e lasciamo la seconda riga vuota.

Salvataggio in formato SQL

Formato del risultato:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Esempio di risultato:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Dump dei risultati in JSON

Formato comune del risultato:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Testo iniziale:

[

Testo finale:

]

Esempio di risultato:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
suggerimento

Affinché le opzioni "Prepend text" e "Append text" siano disponibili nell'Editor delle attività, è necessario attivare "More options".

Impostazioni possibili

ParametroValore predefinitoDescrizione
AntiGate presetdefaultScelta del preset Util::AntiGateUtil::AntiGate, maggiori dettagli sull'impostazione qui
AntiGate preset for old captchadefaultSimile a AntiGate preset, ma viene utilizzato solo per i captcha ordinari (vecchi, sotto forma di singola immagine). Se qui non è selezionato un preset, per tali captcha verrà utilizzato il preset selezionato in AntiGate preset.
Experimental img captcha max count5Numero massimo di tentativi ripetuti per captcha immagine per tentativo
Preffered captcha typeClickScelta del tipo di captcha preferito: Click o Puzzle
Use sessionsSalva le sessioni valide, consentendo uno scraping ancora più veloce e riducendo il numero di errori