FreeAI::GoogleAI - Scraper Google AI mode

Présentation du scraper
Le scraper Google AI mode est un outil puissant pour la collecte de données structurées à partir de l'un des principaux systèmes d'IA, car AI mode fonctionne sur la base de Gemini de Google. Grâce à l'intégration avec Google AI mode, vous n'obtenez pas seulement des listes de liens, mais des réponses actualisées, concises et pertinentes, basées sur un grand nombre de sources, notamment des articles scientifiques, des blogs, des forums et des portails d'actualités.
Le scraper Google AI mode prend en charge les requêtes en langage naturel, y compris les précisions, les questions contextuelles et les constructions imbriquées. La vitesse de traitement atteint 800–1500 requêtes par minute grâce au mode de traitement multithread. Selon la configuration et les préréglages utilisés, vous pouvez obtenir des dizaines de milliers de fragments de texte uniques et des centaines de liens en quelques minutes.
Les résultats peuvent être sauvegardés dans n'importe quel format souhaité grâce au puissant moteur de gabarit Template Toolkit, qui permet de structurer les données en JSON, CSV, SQL et autres formats, ainsi que d'appliquer le filtrage, le tri et l'agrégation des données à la volée.
Le scraper FreeAI::GoogleAI est idéal pour les tâches de veille concurrentielle, la collecte de faits et de citations, la création de bases de connaissances, la surveillance de l'actualité et l'analyse de thématiques, grâce à la haute qualité et au contexte des résultats fournis.
Actuellement, Google n'autorise l'accès à AI mode que sur le territoire des États-Unis, c'est pourquoi il est nécessaire d'utiliser des proxies US pour le fonctionnement du scraper. De plus, pour la même raison, les résultats sont uniquement en anglais.
Données collectées
- Texte de la réponse (au format HTML)
- Liens, ancres et snippets des sources de données
Possibilités
- De manière analogue au scraper SE::Google, le contournement de la vérification JS et la gestion des reCAPTCHA sont pris en charge
- Prise en charge des sessions pour un fonctionnement plus stable et plus rapide
Cas d'utilisation
- Collecte de réponses structurées par requêtes thématiques pour la création de bases de connaissances, de plans de contenu, de systèmes de référence et la génération de FAQ
- Extraction de liens vers les sources avec ancres et snippets - idéal pour construire des listes de ressources faisant autorité, pour les citations et la collecte de backlinks
- Surveillance des mentions de marques, de produits ou de personnes - avec lien vers le contexte et les sources
- Recherche et analyse d'avis d'experts, de tendances et d'insights provenant de sources faisant autorité
- Vérification rapide de l'actualité et de l'exhaustivité des informations sur des sujets clés
- Automatisation de l'analyse des concurrents : quelles ressources sont citées, quels sujets sont couverts et à quelle fréquence
- Soutien aux projets de recherche et d'analyse nécessitant l'agrégation d'informations précises provenant de différentes sources
- Toute autre tâche nécessitant d'obtenir rapidement des réponses courtes et précises avec confirmation par des sources réelles et un contexte logique
Requêtes
En tant que requêtes, il est nécessaire d'indiquer des requêtes de recherche, exactement comme si elles étaient saisies directement dans le formulaire de recherche Google AI mode, par exemple :
How to learn fast?
How to improve memory and concentration?
What is a parser?
Résultats
Ici et plus loin, les exemples de résultats sont abrégés pour une meilleure clarté
Par défaut, la réponse à la requête est affichée, par exemple :
A parser is a program that <b>analyzes input data, typically text or code, and converts it into a structured format that a computer can understand and process</b>.<br />
<b>Here's a breakdown of what a parser does:</b>
<ul>
<li><b>Takes Input:</b> Parsers receive input, which can be source code, data in a specific format (like XML or JSON), interactive commands, etc.</li>
<li><b>Breaks Down Input:</b> The parser breaks the input into its constituent parts, such as keywords, operators, identifiers, and symbols, which are called tokens.</li>
...
To improve memory and concentration, you can implement a combination of lifestyle changes and cognitive exercises.<br />
<b>Lifestyle Changes:</b>
<ul>
<li><b>Prioritize Sleep:</b> Adequate and quality sleep is crucial for memory consolidation and cognitive function. Aim for 7-9 hours of sleep each night and maintain a consistent sleep schedule.</li>
...
To learn fast and retain information effectively, focus on strategies that promote active engagement, optimize brain function, and utilize science-backed learning techniques.<br />
<b>1. Enhance Cognitive Function and Focus:</b>
<ul>
<li><b>Prioritize Sleep:</b> Quality sleep is crucial for memory consolidation and improved concentration. Aim for 7-9 hours of sleep per night for optimal results.</li>
...
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que sous une forme structurée, par exemple CSV ou JSON.
Exportation de la liste des liens
Format du résultat :
$links.format('$link\n')
Exemple de résultat :
https://www.techtarget.com/searchapparchitecture/definition/parser
https://www.linkedin.com/advice/3/what-role-parser-programming-language-theory-bxxbe#:~:text=A%20parser%20in%20a%20compiler,the%20compilation%20process%20will%20stop.
https://www.huntress.com/cybersecurity-101/topics/what-is-a-parser
https://botpenguin.com/glossary/syntax-analysis
https://www.dremio.com/wiki/parsing/#:~:text=Parsing%2C%20also%20known%20as%20syntax,%2C%20processed%2C%20or%20analyzed%20effectively.
...
Affichage en CSV des liens, ancres et snippets avec leurs positions
Format du résultat :
[% FOREACH item IN links; tools.CSVline(loop.count, item.link, item.anchor, item.snippet); END %]
Exemple de résultat :
...
8,https://www.howtolearn.com/2021/01/9-science-backed-ways-to-learn-anything-faster/,"9 Science Backed Ways to Learn Anything Faster - HowToLearn.com","Jan 4, 2021 — Table of Contents * Break Your Learning into Manageable Portions. * Review What You're Learning Frequently. * Use Mindmaps to Summarize Information. * Take Note..."
9,https://www.linkedin.com/pulse/how-slow-learners-easily-speed-up-learning-sathya-molagoda,"How Slow Learners Easily Speed Up Learning - LinkedIn","Dec 24, 2022 — How Slow Learners Easily Speed Up Learning * Introduction. If you are a slow learner, don't worry. You can easily speed up your learning by using some tips and ..."
10,https://www.linkedin.com/pulse/5-science-backed-learning-techniques-save-time-supercharge-k-c-barr-ljqee,"5 Science-Backed Learning Techniques That Save Time and ...","Jan 16, 2025 — Offsetting forgetting is like patching those holes to retain as much water as possible. * 5 Actionable Steps: Review new material within 24 hours of learning it..."
1,https://www.huntress.com/cybersecurity-101/topics/what-is-a-parser,"What Is a Parser? A Beginner-Friendly Guide to ... - Huntress","May 27, 2025 — What's a Parser (And Why Should You Care)? ... Ever wondered what happens behind the scenes when computers process text, code, or data? That's where parsers com..."
2,https://www.huntress.com/cybersecurity-101/topics/what-is-a-parser,"What Is a Parser? A Beginner-Friendly Guide to ... - Huntress","May 27, 2025 — What's a Parser (And Why Should You Care)? ... Ever wondered what happens behind the scenes when computers process text, code, or data? That's where parsers com..."
3,"https://www.techtarget.com/searchapparchitecture/definition/parser#:~:text=In%20computer%20technology%2C%20a%20parser,necessary%20input%20has%20been%20provided.","What is a Parser? Definition, Types and Examples - TechTarget","Jul 7, 2022 — What is a parser? In computer technology, a parser is a program that's usually part of a compiler. It receives input in the form of sequential source program in..."
Dans le Format général des résultats, le moteur de gabarit Template Toolkit est utilisé pour afficher le tableau $links dans une boucle FOREACH.
Dans le nom du fichier de résultats, il suffit de changer l'extension du fichier en csv.
Paramètres possibles
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Results language | Auto (Based on IP) | Choix de la langue des résultats (paramètre lr=) |
| Search from country | Auto (Based on IP) | Choix du pays d'où s'effectue la recherche (recherche géo-dépendante, paramètre gl=) |
| Location (city) | Recherche par ville, région. Il est possible d'indiquer des villes sous la forme novosibirsk, russia ; la liste complète des localisations est disponible dans Geotargets (copie - il faut utiliser la valeur de la colonne Canonical Name). Il est également nécessaire de définir le domaine Google correct | |
| Util::ReCaptcha2 preset | default | Détermine s'il faut utiliser Util::ReCaptcha2 pour contourner les reCAPTCHA |
| Util::AntiGate preset | default | Détermine s'il faut utiliser Util::AntiGate pour contourner les captchas graphiques |
| ReCaptcha2 retries | 3 | Nombre de tentatives d'envoi de la réponse au reCAPTCHA le nombre de fois indiqué, sans changer de proxy |
| ReCaptcha2 pass proxy | ☐ | Permet de transmettre le proxy (utilisé dans la requête à Google) et les cookies (reçus dans la réponse de Google) au service de reconnaissance ReCaptcha |
| Use sessions | ☑ | Sauvegarde les bonnes sessions, ce qui permet de scraper encore plus vite en obtenant moins d'erreurs. |
| Don't take session | ☐ | Possibilité de ne pas utiliser les bonnes sessions sauvegardées |
| Additional headers | Permet d'indiquer n'importe quels en-têtes personnalisés | |
| Redirect browser max pages | 10 | Nombre de pages de navigateur utilisées pour contourner la protection sous forme de vérification du JavaScript activé |

