Ga naar de hoofdinhoud

Cloudflare::Radar - Scraper voor Cloudflare Radar

img

Overzicht van de scraper

De Cloudflare Radar scraper maakt het mogelijk om snel de categorie van een website te bepalen op basis van de domeinnaam.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV

Verzamelde gegevens

Gegevens worden verzameld van de service radar.cloudflare.com

  • Websitecategorieën

Toepassingen

  • Bepalen tot welke websitecategorie een domein behoort

Query's

Als query's moet een lijst met domeinen worden opgegeven, bijvoorbeeld:

a-parser.com  
yandex.ru
google.com
vk.com
facebook.com
youtube.com

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in een gestructureerde vorm zoals CSV of JSON

Standaard uitvoer

Resultaatformaat:

$query: $categories.format('$name, ')\n

Voorbeeld van een resultaat waarin categorieën en hun beschrijving worden weergegeven:

a-parser.com: Business, Business & Economy, 
yandex.ru: News & Media, Entertainment,
vk.com: Social Networks, Society & Lifestyle,
youtube.com: Video Streaming, Entertainment,
facebook.com: Social Networks, Society & Lifestyle,
google.com: Search Engines, Technology,

Uitvoer naar CSV-tabel

Resultaatformaat:

[% FOREACH categories;
tools.CSVline(name, desc);
END %]

Voorbeeldresultaat:

Business,"Sites related to business."
"Business & Economy","Sites that are related to business, economy, finance, education, science and technology."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Search Engines","Sites that allow users to search for content using keywords."
Technology,"Sites related to technology that are not included in the science category."
"News & Media","Sites related to news and media."
Entertainment,"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc."

Resultaten dumpen naar JSON

Algemeen resultaatformaat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.categories = [];

FOREACH item IN p1.categories;
obj.categories.push({
name = item.name
desc = item.desc
});
END;

obj.json %]

Begintekst:

[

Eindtekst:

]

Voorbeeldresultaat:

[{"query":"yandex.ru","categories":[{"desc":"Sites related to news and media.","name":"News & Media"},{"desc":"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc.","name":"Entertainment"}]},{"query":"google.com","categories":[{"desc":"Sites that allow users to search for content using keywords.","name":"Search Engines"},{"desc":"Sites related to technology that are not included in the science category.","name":"Technology"}]},{"query":"a-parser.com","categories":[{"desc":"Sites related to business.","name":"Business"},{"desc":"Sites that are related to business, economy, finance, education, science and technology.","name":"Business & Economy"}]}]
tip

Om de opties "Prepend text" en "Append text" beschikbaar te maken in de Taakeditor, moet u "More options" activeren.

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
Bypass CloudFlare with Chrome Max Pages10Max. aantal pagina's bij het omzeilen van CF via Chrome
Bypass CloudFlare with Chrome HeadlessAls deze optie is ingeschakeld, wordt de browser niet weergegeven tijdens het omzeilen van CF via Chrome
Use sessionSlaat goede sessies op, waardoor het scrapen nog sneller gaat met minder fouten.