SE::Yandex::SQI - Controllo dell'Indice di Qualità del Sito (SQI) su Yandex
Panoramica dello scraper

SE::Yandex::SQI – verifica dell'indice di qualità del sito (SQI) in Yandex. Scraper incredibilmente veloce, velocità di lavoro 3000-7000 query al minuto.È possibile utilizzare la generazione automatica delle query, la sostituzione di sotto-query da file, l'iterazione di combinazioni alfanumeriche e liste per ottenere il massimo numero possibile di risultati. Utilizzando la filtrazione dei risultati è possibile pulire immediatamente l'output, rimuovendo tutta la spazzatura non necessaria (utilizzando le parole negative).
La funzionalità di A-Parser consente di salvare le impostazioni di scraping dello scraper SE::Yandex::SQI per un uso futuro (preset), impostare pianificazioni di scraping e molto altro.
Il salvataggio dei risultati è possibile nel formato e nella struttura necessari, grazie al potente motore di modelli integrato Template Toolkit che consente di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, inclusi JSON, SQL e CSV.
Dati raccolti
- Indice di qualità del sito (Yandex SQI)
- Dati sulla presenza di badge per il sito (1 - badge ottenuto, 0 - badge assente):
- Scelta degli utenti
- Sito popolare
- Connessione protetta
- Pagine Turbo
- Se il sito è ufficiale
- Per i badge "Scelta degli utenti" e "Sito popolare" è possibile ottenere il grado di preparazione per l'ottenimento del badge come valore intermedio da 0 a 1, ad esempio 0.4.
- Numero di recensioni, valutazione e rating
- Rating del negozio nella ricerca prodotti e rating del negozio su Yandex Market (se questi dati sono disponibili per il sito cercato)
Casi d'uso
- Valutazione dell'utilità del sito dal punto di vista di Yandex
- Raccolta dei titoli (title)
Query
Come query è necessario indicare il dominio del sito cercato. È possibile indicarli sia con il protocollo che senza, ad esempio:
yandex.ru
google.com
vk.com
facebook.com
https://a-parser.com
Opzioni di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera o strutturata, come CSV o JSON
Output predefinito
Formato del risultato:
$query: $sqi\n
Esempio di risultato, in cui viene mostrata la query iniziale e il suo SQI:
facebook.com: 130000
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000
Se l'SQI per il dominio non è disponibile, il risultato sarà -1.
Output in tabella CSV
Formato del risultato:
[% tools.CSVline(query, sqi, rating); %]
Nome del file:
$datefile.format().csv
Testo iniziale:
Dominio,Rating,Autore,Prezzo
Affinché l'opzione "Prepend text" sia disponibile nell'Editor delle attività, è necessario attivare "More options". Nel "Prepend text" scriviamo i nomi delle colonne separati da virgola e lasciamo la seconda riga vuota.
Salvataggio in formato SQL
Formato del risultato:
[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]
Esempio di risultato:
INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')
Dump dei risultati in JSON
Formato comune del risultato:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;
obj.json %]
Testo iniziale:
[
Testo finale:
]
Esempio di risultato:
[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
Affinché le opzioni "Prepend text" e "Append text" siano disponibili nell'Editor delle attività, è necessario attivare "More options".
Impostazioni possibili
| Parametro | Valore predefinito | Descrizione |
|---|---|---|
| AntiGate preset | default | Scelta del preset Util::AntiGate, maggiori dettagli sull'impostazione qui |
| AntiGate preset for old captcha | default | Simile a AntiGate preset, ma viene utilizzato solo per i captcha ordinari (vecchi, sotto forma di singola immagine). Se qui non è selezionato un preset, per tali captcha verrà utilizzato il preset selezionato in AntiGate preset. |
| Experimental img captcha max count | 5 | Numero massimo di tentativi ripetuti per captcha immagine per tentativo |
| Preffered captcha type | Click | Scelta del tipo di captcha preferito: Click o Puzzle |
| Use sessions | ☑ | Salva le sessioni valide, consentendo uno scraping ancora più veloce e riducendo il numero di errori |
