FreeAI::Perplexity - Scraper del servizio AI Perplexity

Panoramica dello scraper
Lo scraper Perplexity è uno strumento moderno per la raccolta di informazioni strutturate da uno dei motori di ricerca AI in più rapida crescita. Grazie all'integrazione con Perplexity, non otterrai solo elenchi di link, ma risposte aggiornate, concise e pertinenti basate su un gran numero di fonti, tra cui articoli scientifici, blog, forum e portali di notizie.
Lo scraper Perplexity supporta query in linguaggio naturale, inclusi chiarimenti, domande contestuali e strutture annidate. Lo scraper offre la possibilità di estrarre domande correlate, inserendole automaticamente nella coda delle query, ampliando così notevolmente la quantità di informazioni raccolte.
La velocità di elaborazione raggiunge 500–800 query al minuto grazie alla modalità di lavoro multithreading. A seconda della configurazione e dei preset utilizzati, è possibile ottenere migliaia di frammenti di testo e link unici in pochi minuti.
I risultati dell'output possono essere salvati in qualsiasi formato desiderato grazie al potente motore di modelli Template Toolkit, che consente di strutturare i dati in JSON, CSV, SQL e altri formati, oltre ad applicare filtri, ordinamento e aggregazione dei dati al volo.
Lo scraper Perplexity è ideale per compiti di competitive intelligence, raccolta di fatti e citazioni, creazione di basi di conoscenza, monitoraggio delle notizie e analisi dei temi, grazie all'alta qualità e alla contestualità dei risultati forniti.
Dati raccolti
- Testo della risposta (in formattazione Markdown)
- Link, anchor e snippet delle fonti di dati
- Elenco di domande simili
Funzionalità
- Scelta del tipo di fonte di informazioni (supportata la selezione multipla)
- Inserimento di domande simili nella coda delle query fino alla profondità specificata
- Bypass delle protezioni e supporto delle sessioni per un funzionamento più stabile e veloce
Casi d'uso
- Raccolta di risposte strutturate per query tematiche per la creazione di basi di conoscenza, piani editoriali, sistemi di riferimento e generazione di FAQ
- Estrazione di link alle fonti con anchor e snippet - ideale per costruire elenchi di risorse autorevoli, citazioni e raccolta di backlink
- Raccolta di domande simili/di approfondimento dai risultati di Perplexity - utile per l'analisi dell'interesse degli utenti, la formazione del nucleo semantico e la generazione di idee per articoli
- Monitoraggio delle menzioni di brand, prodotti o persone - con riferimento al contesto e alle fonti
- Ricerca e analisi di opinioni di esperti, trend e insight da fonti autorevoli
- Verifica rapida dell'attualità e della completezza delle informazioni su temi chiave
- Automazione dell'analisi della concorrenza: quali risorse vengono citate, quali temi vengono trattati e con quale frequenza
- Supporto per progetti di ricerca e analisi che richiedono l'aggregazione di informazioni precise da diverse fonti
- Qualsiasi altro compito in cui sia necessario ottenere rapidamente risposte brevi e precise con conferma da fonti reali e contesto logico
Query
Come query è necessario indicare le query di ricerca, esattamente come se venissero inserite direttamente nel modulo di ricerca di Perplexity, ad esempio:
Come imparare a imparare velocemente?
Come migliorare la memoria e la concentrazione?
Cos'è uno scraper?
TOP 10 siti del web russo
Risultati
Qui e di seguito gli esempi dei risultati sono abbreviati per una migliore chiarezza
Per impostazione predefinita vengono visualizzati la query e la relativa risposta, ad esempio:
Cos'è uno scraper?
Uno scraper è un programma o uno script che raccoglie, analizza e sistematizza automaticamente le informazioni da varie fonti, il più delle volte da siti web[1][2][5][7]. Il compito principale dello scraper è estrarre i dati necessari (ad esempio, testi, prezzi, contatti, immagini) da array di informazioni strutturati o semistrutturati, come pagine HTML, database, file di testo e altri formati[1][5][6].
**Come funziona lo scraper:**
- Scansiona le fonti di dati specificate (ad esempio, pagine web).
...
TOP 10 siti del web russo
## TOP-10 siti del web russo a giugno 2025
Sulla base dei dati recenti di Similarweb e di altre risorse analitiche, l'elenco dei siti più visitati del segmento russo di Internet (Runet) include le seguenti risorse:
1. **Yandex.ru** — il più grande motore di ricerca e portale internet russo[2][6].
2. **Google.com** — motore di ricerca globale, attivamente utilizzato anche in Russia[2][6].
...
### Tabella per chiarezza
| Posizione | Sito | Funzione principale |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Ricerca, servizi, portale |
| 2 | google.com | Ricerca |
...
Varianti di output dei risultati
A-Parser supporta una formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma libera, così come in forma strutturata, ad esempio CSV o JSON.
Esportazione dell'elenco di link
Formato del risultato:
$sources.format('$link\n')
Esempio di risultato:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
Output in CSV di link, anchor e snippet con le loro posizioni
Formato del risultato:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
Esempio di risultato:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Cos'è Bitcoin (BTC)? Guida completa - Kraken","Scopri la natura decentralizzata di Bitcoin, l'offerta limitata e il suo ruolo come valuta digitale. Scopri cosa c'è alla base di BTC, quali sono i suoi principi fondamentali e i casi d'uso."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Cos'è il bitcoin e a cosa serve - Vedomosti","È una valuta digitale utilizzata come mezzo di pagamento e asset finanziario"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Cos'è il bitcoin e come funziona in parole semplici? - ForkLog","Bitcoin — è un sistema decentralizzato basato sul principio dello scambio diretto tra utenti. Per le transazioni viene utilizzata l'omonima criptovaluta BTC."
Nel Formato generale dei risultati viene applicato il motore di modelli Template Toolkit per l'output dell'array $sources in un ciclo FOREACH.
Nel nome del file dei risultati è sufficiente cambiare l'estensione del file in csv.
Output in JSON di domanda, risposta ed elenco di domande simili
Formato comune del risultato:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
Testo iniziale:
[
Testo finale:
]
Esempio di risultato:
[{"related":["Perché il bitcoin è considerato la prima criptovaluta e in cosa differisce dal denaro tradizionale","Come funziona la tecnologia blockchain alla base del bitcoin","Quali metodi crittografici proteggono le transazioni nel sistema bitcoin","In che modo il limite di 21 milioni di monete rende il bitcoin un asset unico","Quali vantaggi offre la decentralizzazione e l'assenza di intermediari nell'uso del bitcoin"],"answer":"**Bitcoin** (Bitcoin, BTC) — è la prima e più famosa criptovaluta, che rappresenta un sistema di pagamento digitale decentralizzato basato sulla tecnologia blockchain. In questo sistema, tutte le transazioni sono registrate in un registro pubblico (blockchain), protetto da metodi crittografici e accessibile per la verifica a qualsiasi partecipante della rete[1][3][4].\n...","query":"Cos'è il bitcoin?"},{"related":["Quali regole e consigli fondamentali aiutano a cercare correttamente su Google","Perché è importante evitare domande e frasi complesse durante la ricerca","Come usare la lingua inglese per una ricerca più efficace su Google","Quali operatori e simboli aiutano a espandere o affinare la ricerca","Qual è la differenza tra l'uso delle virgolette e della tilde nella ricerca di informazioni"],"answer":"## Come cercare correttamente su Google: consigli fondamentali\n\n**Formula le query in modo breve ed essenziale**\n- Usa 2–6 parole chiave, evita domande lunghe e frasi complesse. Ad esempio, invece di \"cosa fare se non funziona internet sul mio computer con windows?\" usa \"internet non funziona windows come risolvere\"[1].\n\n**Cerca frasi esatte**\n...","query":"Come cercare correttamente su Google?"}]
Impostazioni possibili
| Nome parametro | Valore predefinito | Descrizione |
|---|---|---|
| Sources | Web | Tipo di fonte di informazioni (supportata la selezione multipla) |
| Use sessions | ☑ | Salva le sessioni valide, consentendo uno scraping ancora più veloce con meno errori |
| Bypass CloudFlare | ☑ | Bypass automatico della protezione CloudFlare |
| Bypass CloudFlare Browser Max Pages | 10 | Numero massimo di pagine durante il bypass di CF |
| Bypass CloudFlare Browser Headless | ☑ | Se l'opzione è attiva, il browser non verrà visualizzato durante il bypass di CF |