Vai al contenuto principale

FreeAI::Perplexity - Scraper del servizio AI Perplexity

Perplexity

Panoramica dello scraper

Lo scraper Perplexity è uno strumento moderno per la raccolta di informazioni strutturate da uno dei motori di ricerca AI in più rapida crescita. Grazie all'integrazione con Perplexity, non otterrai solo elenchi di link, ma risposte aggiornate, concise e pertinenti basate su un gran numero di fonti, tra cui articoli scientifici, blog, forum e portali di notizie.

Lo scraper Perplexity supporta query in linguaggio naturale, inclusi chiarimenti, domande contestuali e strutture annidate. Lo scraper offre la possibilità di estrarre domande correlate, inserendole automaticamente nella coda delle query, ampliando così notevolmente la quantità di informazioni raccolte.

La velocità di elaborazione raggiunge 500–800 query al minuto grazie alla modalità di lavoro multithreading. A seconda della configurazione e dei preset utilizzati, è possibile ottenere migliaia di frammenti di testo e link unici in pochi minuti.

I risultati dell'output possono essere salvati in qualsiasi formato desiderato grazie al potente motore di modelli Template Toolkit, che consente di strutturare i dati in JSON, CSV, SQL e altri formati, oltre ad applicare filtri, ordinamento e aggregazione dei dati al volo.

Lo scraper Perplexity è ideale per compiti di competitive intelligence, raccolta di fatti e citazioni, creazione di basi di conoscenza, monitoraggio delle notizie e analisi dei temi, grazie all'alta qualità e alla contestualità dei risultati forniti.

Dati raccolti

  • Testo della risposta (in formattazione Markdown)
  • Link, anchor e snippet delle fonti di dati
  • Elenco di domande simili

Funzionalità

  • Scelta del tipo di fonte di informazioni (supportata la selezione multipla)
  • Inserimento di domande simili nella coda delle query fino alla profondità specificata
  • Bypass delle protezioni e supporto delle sessioni per un funzionamento più stabile e veloce

Casi d'uso

  • Raccolta di risposte strutturate per query tematiche per la creazione di basi di conoscenza, piani editoriali, sistemi di riferimento e generazione di FAQ
  • Estrazione di link alle fonti con anchor e snippet - ideale per costruire elenchi di risorse autorevoli, citazioni e raccolta di backlink
  • Raccolta di domande simili/di approfondimento dai risultati di Perplexity - utile per l'analisi dell'interesse degli utenti, la formazione del nucleo semantico e la generazione di idee per articoli
  • Monitoraggio delle menzioni di brand, prodotti o persone - con riferimento al contesto e alle fonti
  • Ricerca e analisi di opinioni di esperti, trend e insight da fonti autorevoli
  • Verifica rapida dell'attualità e della completezza delle informazioni su temi chiave
  • Automazione dell'analisi della concorrenza: quali risorse vengono citate, quali temi vengono trattati e con quale frequenza
  • Supporto per progetti di ricerca e analisi che richiedono l'aggregazione di informazioni precise da diverse fonti
  • Qualsiasi altro compito in cui sia necessario ottenere rapidamente risposte brevi e precise con conferma da fonti reali e contesto logico

Query

Come query è necessario indicare le query di ricerca, esattamente come se venissero inserite direttamente nel modulo di ricerca di Perplexity, ad esempio:

Come imparare a imparare velocemente?
Come migliorare la memoria e la concentrazione?
Cos'è uno scraper?
TOP 10 siti del web russo

Risultati

informazione

Qui e di seguito gli esempi dei risultati sono abbreviati per una migliore chiarezza

Per impostazione predefinita vengono visualizzati la query e la relativa risposta, ad esempio:

Cos'è uno scraper?
Uno scraper è un programma o uno script che raccoglie, analizza e sistematizza automaticamente le informazioni da varie fonti, il più delle volte da siti web[1][2][5][7]. Il compito principale dello scraper è estrarre i dati necessari (ad esempio, testi, prezzi, contatti, immagini) da array di informazioni strutturati o semistrutturati, come pagine HTML, database, file di testo e altri formati[1][5][6].

**Come funziona lo scraper:**
- Scansiona le fonti di dati specificate (ad esempio, pagine web).
...

TOP 10 siti del web russo
## TOP-10 siti del web russo a giugno 2025

Sulla base dei dati recenti di Similarweb e di altre risorse analitiche, l'elenco dei siti più visitati del segmento russo di Internet (Runet) include le seguenti risorse:

1. **Yandex.ru** — il più grande motore di ricerca e portale internet russo[2][6].
2. **Google.com** — motore di ricerca globale, attivamente utilizzato anche in Russia[2][6].
...

### Tabella per chiarezza

| Posizione | Sito | Funzione principale |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Ricerca, servizi, portale |
| 2 | google.com | Ricerca |
...

Varianti di output dei risultati

A-Parser supporta una formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera, così come in forma strutturata, ad esempio CSV o JSON.

Esportazione dell'elenco di link

Formato del risultato:

$sources.format('$link\n')

Esempio di risultato:

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...

Output in CSV di link, anchor e snippet con le loro posizioni

Formato del risultato:

[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]

Esempio di risultato:

...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Cos'è Bitcoin (BTC)? Guida completa - Kraken","Scopri la natura decentralizzata di Bitcoin, l'offerta limitata e il suo ruolo come valuta digitale. Scopri cosa c'è alla base di BTC, quali sono i suoi principi fondamentali e i casi d'uso."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Cos'è il bitcoin e a cosa serve - Vedomosti","È una valuta digitale utilizzata come mezzo di pagamento e asset finanziario"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Cos'è il bitcoin e come funziona in parole semplici? - ForkLog","Bitcoin — è un sistema decentralizzato basato sul principio dello scambio diretto tra utenti. Per le transazioni viene utilizzata l'omonima criptovaluta BTC."
suggerimento

Nel Formato generale dei risultati viene applicato il motore di modelli Template Toolkit per l'output dell'array $sources in un ciclo FOREACH.

Nel nome del file dei risultati è sufficiente cambiare l'estensione del file in csv.

Output in JSON di domanda, risposta ed elenco di domande simili

Formato comune del risultato:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];

FOREACH item IN p1.related;
obj.related.push(item.text);
END;

obj.json %]

Testo iniziale:

[

Testo finale:

]

Esempio di risultato:

[{"related":["Perché il bitcoin è considerato la prima criptovaluta e in cosa differisce dal denaro tradizionale","Come funziona la tecnologia blockchain alla base del bitcoin","Quali metodi crittografici proteggono le transazioni nel sistema bitcoin","In che modo il limite di 21 milioni di monete rende il bitcoin un asset unico","Quali vantaggi offre la decentralizzazione e l'assenza di intermediari nell'uso del bitcoin"],"answer":"**Bitcoin** (Bitcoin, BTC) — è la prima e più famosa criptovaluta, che rappresenta un sistema di pagamento digitale decentralizzato basato sulla tecnologia blockchain. In questo sistema, tutte le transazioni sono registrate in un registro pubblico (blockchain), protetto da metodi crittografici e accessibile per la verifica a qualsiasi partecipante della rete[1][3][4].\n...","query":"Cos'è il bitcoin?"},{"related":["Quali regole e consigli fondamentali aiutano a cercare correttamente su Google","Perché è importante evitare domande e frasi complesse durante la ricerca","Come usare la lingua inglese per una ricerca più efficace su Google","Quali operatori e simboli aiutano a espandere o affinare la ricerca","Qual è la differenza tra l'uso delle virgolette e della tilde nella ricerca di informazioni"],"answer":"## Come cercare correttamente su Google: consigli fondamentali\n\n**Formula le query in modo breve ed essenziale**\n- Usa 2–6 parole chiave, evita domande lunghe e frasi complesse. Ad esempio, invece di \"cosa fare se non funziona internet sul mio computer con windows?\" usa \"internet non funziona windows come risolvere\"[1].\n\n**Cerca frasi esatte**\n...","query":"Come cercare correttamente su Google?"}]

Impostazioni possibili

Nome parametroValore predefinitoDescrizione
SourcesWebTipo di fonte di informazioni (supportata la selezione multipla)
Use sessionsSalva le sessioni valide, consentendo uno scraping ancora più veloce con meno errori
Bypass CloudFlareBypass automatico della protezione CloudFlare
Bypass CloudFlare Browser Max Pages10Numero massimo di pagine durante il bypass di CF
Bypass CloudFlare Browser HeadlessSe l'opzione è attiva, il browser non verrà visualizzato durante il bypass di CF