Cloudflare::Radar - Scraper Cloudflare Radar

Panoramica dello scraper
Lo scraper Cloudflare Radar consente di determinare rapidamente la categoria di un sito in base al nome del dominio.
Il salvataggio dei risultati è possibile nella forma e nella struttura desiderata, grazie al potente motore di modelli integrato Template Toolkit che permette di applicare logica aggiuntiva ai risultati e di esportare i dati in vari formati, tra cui JSON, SQL e CSV
Dati raccolti
I dati vengono raccolti dal servizio radar.cloudflare.com
- Categorie del sito
Casi d'uso
- Determinazione della categoria di appartenenza di un dominio
Query
Come query è necessario indicare un elenco di domini, ad esempio:
a-parser.com
yandex.ru
google.com
vk.com
facebook.com
youtube.com
Esempi di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di modelli integrato Template Toolkit, che gli consente di produrre risultati in forma arbitraria o strutturata, come CSV o JSON
Output predefinito
Formato del risultato:
$query: $categories.format('$name, ')\n
Esempio di risultato, in cui sono visualizzate le categorie e la loro descrizione:
a-parser.com: Business, Business & Economy,
yandex.ru: News & Media, Entertainment,
vk.com: Social Networks, Society & Lifestyle,
youtube.com: Video Streaming, Entertainment,
facebook.com: Social Networks, Society & Lifestyle,
google.com: Search Engines, Technology,
Output in tabella CSV
Formato del risultato:
[% FOREACH categories;
tools.CSVline(name, desc);
END %]
Esempio di risultato:
Business,"Sites related to business."
"Business & Economy","Sites that are related to business, economy, finance, education, science and technology."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Search Engines","Sites that allow users to search for content using keywords."
Technology,"Sites related to technology that are not included in the science category."
"News & Media","Sites related to news and media."
Entertainment,"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc."
Dump dei risultati in JSON
Formato comune del risultato:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.categories = [];
FOREACH item IN p1.categories;
obj.categories.push({
name = item.name
desc = item.desc
});
END;
obj.json %]
Testo iniziale:
[
Testo finale:
]
Esempio di risultato:
[{"query":"yandex.ru","categories":[{"desc":"Sites related to news and media.","name":"News & Media"},{"desc":"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc.","name":"Entertainment"}]},{"query":"google.com","categories":[{"desc":"Sites that allow users to search for content using keywords.","name":"Search Engines"},{"desc":"Sites related to technology that are not included in the science category.","name":"Technology"}]},{"query":"a-parser.com","categories":[{"desc":"Sites related to business.","name":"Business"},{"desc":"Sites that are related to business, economy, finance, education, science and technology.","name":"Business & Economy"}]}]
Affinché le opzioni "Prepend text" e "Append text" siano disponibili nell'Editor delle attività, è necessario attivare "More options".
Impostazioni possibili
| Nome parametro | Valore predefinito | Descrizione |
|---|---|---|
| Bypass CloudFlare with Chrome Max Pages | 10 | Numero massimo di pagine durante il bypass di CF tramite Chrome |
| Bypass CloudFlare with Chrome Headless | ☑ | Se l'opzione è attiva, il browser non verrà visualizzato durante il bypass di CF tramite Chrome |
| Use session | ☑ | Salva le sessioni valide, consentendo uno scraping ancora più veloce con meno errori. |