FreeAI::Perplexity - Scraper du service IA Perplexity

Présentation du scraper
Le scraper Perplexity est un outil moderne pour la collecte de données structurées à partir de l'un des moteurs de recherche IA à la croissance la plus rapide. Grâce à l'intégration avec Perplexity, vous obtenez non seulement des listes de liens, mais des réponses actualisées, concises et pertinentes basées sur un grand nombre de sources, y compris des articles scientifiques, des blogs, des forums et des portails d'actualités.
Le scraper Perplexity prend en charge les requêtes en langage naturel, y compris les précisions, les questions contextuelles et les constructions imbriquées. Le scraper offre la possibilité de collecter des questions pertinentes, en les ajoutant automatiquement à la file des tâches, augmentant ainsi considérablement la quantité d'informations collectées.
La vitesse de traitement atteint 500–800 requêtes par minute grâce au mode de traitement multithread. Selon la configuration et les préréglages utilisés, vous pouvez obtenir des milliers de fragments de texte uniques et de liens en quelques minutes.
Les résultats peuvent être sauvegardés dans n'importe quel format souhaité grâce au puissant moteur de gabarit Template Toolkit, qui permet de structurer les données en JSON, CSV, SQL et d'autres formats, ainsi que d'appliquer un filtrage, un tri et une agrégation des données à la volée.
Le scraper Perplexity est idéal pour les tâches de veille concurrentielle, la collecte de faits et de citations, la création de bases de connaissances, la surveillance des actualités et l'analyse de sujets, grâce à la haute qualité et au contexte des résultats fournis.
Données collectées
- Texte de la réponse (au format Markdown)
- Liens, ancres et extraits (snippets) des sources de données
- Liste de questions similaires
Fonctionnalités
- Choix du type de source d'information (sélection multiple prise en charge)
- Insertion de questions similaires dans la file des tâches jusqu'à la profondeur indiquée
- Contournement des protections et prise en charge des sessions pour un fonctionnement plus stable et rapide
Cas d'utilisation
- Collecte de réponses structurées par requêtes thématiques pour la création de bases de connaissances, de plans de contenu, de systèmes de référence et la génération de FAQ
- Extraction de liens vers les sources avec ancres et extraits - idéal pour construire des listes de ressources faisant autorité, pour le référencement et la collecte de backlinks
- Collecte de questions similaires/de précision à partir des résultats de Perplexity - utile pour l'analyse de l'intérêt des utilisateurs, la formation du noyau sémantique et la génération d'idées d'articles
- Surveillance des mentions de marques, de produits ou de personnes - avec lien au contexte et aux sources
- Recherche et analyse d'opinions d'experts, de tendances et d'insights provenant de sources faisant autorité
- Vérification rapide de l'actualité et de l'exhaustivité des informations sur des sujets clés
- Automatisation de l'analyse des concurrents : quelles ressources sont citées, quels sujets sont abordés et à quelle fréquence
- Soutien aux projets de recherche et d'analyse nécessitant l'agrégation d'informations précises provenant de différentes sources
- Toutes autres tâches nécessitant d'obtenir rapidement des réponses courtes et précises avec confirmation par des sources réelles et un contexte logique
Requêtes
Comme requêtes, il est nécessaire d'indiquer des requêtes de recherche, exactement comme si elles étaient saisies directement dans le formulaire de recherche de Perplexity, par exemple :
Comment apprendre à apprendre rapidement ?
Comment améliorer la mémoire et la concentration ?
Qu'est-ce qu'un scraper ?
TOP 10 des sites du web russe
Résultats
Ici et plus loin, les exemples de résultats sont abrégés pour une meilleure clarté
Par défaut, la requête et sa réponse sont affichées, par exemple :
Qu'est-ce qu'un scraper ?
Un scraper est un programme ou un script qui collecte, analyse et systématise automatiquement des informations provenant de diverses sources, le plus souvent de sites web[1][2][5][7]. La tâche principale du scraper est d'extraire les données nécessaires (par exemple, textes, prix, contacts, images) à partir de masses d'informations structurées ou semi-structurées, telles que des pages HTML, des bases de données, des fichiers texte et d'autres formats[1][5][6].
**Comment fonctionne un scraper :**
- Scanne les sources de données spécifiées (par exemple, des pages web).
...
TOP 10 des sites du web russe
## TOP-10 des sites du Runet en juin 2025
Sur la base des données récentes de Similarweb et d'autres ressources analytiques, la liste des sites les plus visités du segment russe d'Internet (Runet) comprend les ressources suivantes :
1. **Yandex.ru** — le plus grand moteur de recherche et portail internet russe[2][6].
2. **Google.com** — moteur de recherche mondial, activement utilisé également en Russie[2][6].
...
### Tableau pour plus de clarté
| Place | Site | Fonction principale |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Recherche, services, portail |
| 2 | google.com | Recherche |
...
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que sous une forme structurée, par exemple CSV ou JSON.
Export d'une liste de liens
Format du résultat :
$sources.format('$link\n')
Exemple de résultat :
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
Sortie en CSV des liens, ancres et extraits avec leurs positions
Format du résultat :
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
Exemple de résultat :
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Qu'est-ce que le Bitcoin (BTC) ? guide complet - Kraken","Découvrez la nature décentralisée du Bitcoin, son offre limitée et son rôle en tant que monnaie numérique. Découvrez ce qui est à la base du BTC, quels sont ses principes fondamentaux et ses cas d'utilisation."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Qu'est-ce que le bitcoin et pourquoi est-il nécessaire - Vedomosti","C'est une monnaie numérique utilisée comme moyen de paiement et actif financier"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Qu'est-ce que le bitcoin et comment fonctionne-t-il en termes simples ? - ForkLog","Le Bitcoin — est un système décentralisé basé sur le principe de l'échange direct entre utilisateurs. Pour les transactions, la crypto-monnaie éponyme BTC est utilisée."
Dans le Format général des résultats, le moteur de gabarit Template Toolkit est utilisé pour afficher le tableau $sources dans une boucle FOREACH.
Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.
Sortie en JSON de la question, de la réponse et de la liste des questions similaires
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[{"related":["Pourquoi le bitcoin est-il considéré comme la première crypto-monnaie et en quoi diffère-t-il de l'argent traditionnel","Comment fonctionne la technologie blockchain à la base du bitcoin","Quelles méthodes cryptographiques protègent les transactions dans le système bitcoin","En quoi la limite de 21 millions de pièces fait du bitcoin un actif unique","Quels avantages procure la décentralisation et l'absence d'intermédiaires lors de l'utilisation du bitcoin"],"answer":"**Le Bitcoin** (Bitcoin, BTC) — est la première et la plus célèbre crypto-monnaie, représentant un système de paiement numérique décentralisé basé sur la technologie blockchain. Dans ce système, toutes les transactions sont enregistrées dans un registre public (blockchain), qui est protégé par des méthodes cryptographiques et accessible pour vérification par tout participant du réseau[1][3][4].\n...","query":"Qu'est-ce que le bitcoin ?"},{"related":["Quelles sont les règles et conseils de base pour bien chercher sur Google","Pourquoi est-il important d'éviter les questions et les phrases complexes lors de la recherche","Comment utiliser l'anglais pour une recherche plus efficace sur Google","Quels opérateurs et symboles aident à élargir ou à préciser la recherche","Quelle est la différence entre l'utilisation des guillemets et du tilde lors de la recherche d'informations"],"answer":"## Comment bien chercher sur Google : conseils de base\n\n**Formulez vos requêtes de manière courte et directe**\n- Utilisez 2–6 à 6 mots-clés, évitez les longues questions et les phrases complexes. Par exemple, au lieu de \"que faire si internet ne fonctionne pas sur mon ordinateur windows ?\" utilisez \"internet ne fonctionne pas windows comment réparer\"[1].\n\n**Cherchez des phrases exactes**\n...","query":"Comment bien chercher sur Google ?"}]
Paramètres possibles
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Sources | Web | Type de source d'information (sélection multiple prise en charge) |
| Use sessions | ☑ | Conserve les bonnes sessions, ce qui permet de collecter les données encore plus rapidement en obtenant moins d'erreurs |
| Bypass CloudFlare | ☑ | Contournement automatique de la protection CloudFlare |
| Bypass CloudFlare Browser Max Pages | 10 | Nombre max. de pages lors du contournement de CF |
| Bypass CloudFlare Browser Headless | ☑ | Si l'option est activée, le navigateur ne sera pas affiché pendant le contournement de CF |