Cloudflare::Radar - Scraper Cloudflare Radar

Présentation du scraper
Le scraper Cloudflare Radar permet de déterminer rapidement la catégorie d'un site à partir de son nom de domaine.
La sauvegarde des résultats est possible dans la forme et la structure dont vous avez besoin, grâce au puissant moteur de gabarit intégré Template Toolkit qui permet d'appliquer une logique supplémentaire aux résultats et d'afficher les données dans divers formats, y compris JSON, SQL et CSV
Données collectées
Les données sont collectées à partir du service radar.cloudflare.com
- Catégories du site
Cas d'utilisation
- Détermination de la catégorie de sites à laquelle appartient un domaine
Requêtes
En tant que requêtes, il est nécessaire d'indiquer une liste de domaines, par exemple :
a-parser.com
yandex.ru
google.com
vk.com
facebook.com
youtube.com
Variantes d'affichage des résultats
A-Parser prend en charge un formatage flexible des résultats grâce au moteur de gabarit intégré Template Toolkit, ce qui lui permet d'afficher les résultats sous une forme libre, ainsi que structurée, comme CSV ou JSON
Affichage par défaut
Format du résultat :
$query: $categories.format('$name, ')\n
Exemple de résultat, affichant les catégories et leur description :
a-parser.com: Business, Business & Economy,
yandex.ru: News & Media, Entertainment,
vk.com: Social Networks, Society & Lifestyle,
youtube.com: Video Streaming, Entertainment,
facebook.com: Social Networks, Society & Lifestyle,
google.com: Search Engines, Technology,
Affichage dans un tableau CSV
Format du résultat :
[% FOREACH categories;
tools.CSVline(name, desc);
END %]
Exemple de résultat :
Business,"Sites related to business."
"Business & Economy","Sites that are related to business, economy, finance, education, science and technology."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Search Engines","Sites that allow users to search for content using keywords."
Technology,"Sites related to technology that are not included in the science category."
"News & Media","Sites related to news and media."
Entertainment,"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc."
Dump des résultats en JSON
Format de sortie general:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.categories = [];
FOREACH item IN p1.categories;
obj.categories.push({
name = item.name
desc = item.desc
});
END;
obj.json %]
Texte initial:
[
Texte final:
]
Exemple de résultat :
[{"query":"yandex.ru","categories":[{"desc":"Sites related to news and media.","name":"News & Media"},{"desc":"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc.","name":"Entertainment"}]},{"query":"google.com","categories":[{"desc":"Sites that allow users to search for content using keywords.","name":"Search Engines"},{"desc":"Sites related to technology that are not included in the science category.","name":"Technology"}]},{"query":"a-parser.com","categories":[{"desc":"Sites related to business.","name":"Business"},{"desc":"Sites that are related to business, economy, finance, education, science and technology.","name":"Business & Economy"}]}]
Pour que les options "Texte initial" et "Texte final" soient disponibles dans l'Éditeur de tâches, vous devez activer "Plus d'options".
Paramètres possibles
| Nom du paramètre | Valeur par défaut | Description |
|---|---|---|
| Bypass CloudFlare with Chrome Max Pages | 10 | Nombre max de pages lors du contournement de CF via Chrome |
| Bypass CloudFlare with Chrome Headless | ☑ | Si l'option est activée, le navigateur ne sera pas affiché pendant le contournement de CF via Chrome |
| Use session | ☑ | Sauvegarde les bonnes sessions, ce qui permet de collecter les données encore plus rapidement en recevant moins d'erreurs. |