Cloudflare::Radar - Scraper voor Cloudflare Radar

Overzicht van de scraper
De Cloudflare Radar scraper maakt het mogelijk om snel de categorie van een website te bepalen op basis van de domeinnaam.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV
Verzamelde gegevens
Gegevens worden verzameld van de service radar.cloudflare.com
- Websitecategorieën
Toepassingen
- Bepalen tot welke websitecategorie een domein behoort
Query's
Als query's moet een lijst met domeinen worden opgegeven, bijvoorbeeld:
a-parser.com
yandex.ru
google.com
vk.com
facebook.com
youtube.com
Voorbeelden van resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in een gestructureerde vorm zoals CSV of JSON
Standaard uitvoer
Resultaatformaat:
$query: $categories.format('$name, ')\n
Voorbeeld van een resultaat waarin categorieën en hun beschrijving worden weergegeven:
a-parser.com: Business, Business & Economy,
yandex.ru: News & Media, Entertainment,
vk.com: Social Networks, Society & Lifestyle,
youtube.com: Video Streaming, Entertainment,
facebook.com: Social Networks, Society & Lifestyle,
google.com: Search Engines, Technology,
Uitvoer naar CSV-tabel
Resultaatformaat:
[% FOREACH categories;
tools.CSVline(name, desc);
END %]
Voorbeeldresultaat:
Business,"Sites related to business."
"Business & Economy","Sites that are related to business, economy, finance, education, science and technology."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Search Engines","Sites that allow users to search for content using keywords."
Technology,"Sites related to technology that are not included in the science category."
"News & Media","Sites related to news and media."
Entertainment,"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc."
Resultaten dumpen naar JSON
Algemeen resultaatformaat:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.categories = [];
FOREACH item IN p1.categories;
obj.categories.push({
name = item.name
desc = item.desc
});
END;
obj.json %]
Begintekst:
[
Eindtekst:
]
Voorbeeldresultaat:
[{"query":"yandex.ru","categories":[{"desc":"Sites related to news and media.","name":"News & Media"},{"desc":"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc.","name":"Entertainment"}]},{"query":"google.com","categories":[{"desc":"Sites that allow users to search for content using keywords.","name":"Search Engines"},{"desc":"Sites related to technology that are not included in the science category.","name":"Technology"}]},{"query":"a-parser.com","categories":[{"desc":"Sites related to business.","name":"Business"},{"desc":"Sites that are related to business, economy, finance, education, science and technology.","name":"Business & Economy"}]}]
Om de opties "Prepend text" en "Append text" beschikbaar te maken in de Taakeditor, moet u "More options" activeren.
Mogelijke instellingen
| Naam parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Bypass CloudFlare with Chrome Max Pages | 10 | Max. aantal pagina's bij het omzeilen van CF via Chrome |
| Bypass CloudFlare with Chrome Headless | ☑ | Als deze optie is ingeschakeld, wordt de browser niet weergegeven tijdens het omzeilen van CF via Chrome |
| Use session | ☑ | Slaat goede sessies op, waardoor het scrapen nog sneller gaat met minder fouten. |