Перейти к основному содержимому

Cloudflare::Radar - Парсер Cloudflare Radar

img

Обзор парсера

Парсер Cloudflare Radar позволяет быстро определить категорию сайта по доменному имени.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV

Собираемые данные

Данные собираются с сервиса radar.cloudflare.com

  • Категории сайта

Варианты использования

  • Определение к какой категориии сайтов принадлежит домен

Запросы

В качестве запросов необходимо указывать список доменов, например:

a-parser.com  
yandex.ru
google.com
vk.com
facebook.com
youtube.com

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$query: $categories.format('$name, ')\n

Пример результата, в котором отображены категории и их описание:

a-parser.com: Business, Business & Economy, 
yandex.ru: News & Media, Entertainment,
vk.com: Social Networks, Society & Lifestyle,
youtube.com: Video Streaming, Entertainment,
facebook.com: Social Networks, Society & Lifestyle,
google.com: Search Engines, Technology,

Вывод в таблицу CSV

Формат результата:

[% FOREACH categories;
tools.CSVline(name, desc);
END %]

Пример результат:

Business,"Sites related to business."
"Business & Economy","Sites that are related to business, economy, finance, education, science and technology."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Search Engines","Sites that allow users to search for content using keywords."
Technology,"Sites related to technology that are not included in the science category."
"News & Media","Sites related to news and media."
Entertainment,"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc."

Дамп результатов в JSON

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.categories = [];

FOREACH item IN p1.categories;
obj.categories.push({
name = item.name
desc = item.desc
});
END;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Пример результата:

[{"query":"yandex.ru","categories":[{"desc":"Sites related to news and media.","name":"News & Media"},{"desc":"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc.","name":"Entertainment"}]},{"query":"google.com","categories":[{"desc":"Sites that allow users to search for content using keywords.","name":"Search Engines"},{"desc":"Sites related to technology that are not included in the science category.","name":"Technology"}]},{"query":"a-parser.com","categories":[{"desc":"Sites related to business.","name":"Business"},{"desc":"Sites that are related to business, economy, finance, education, science and technology.","name":"Business & Economy"}]}]
подсказка

Чтобы опции "Начальный текст" и "Конечный текст" были доступны в Редакторе заданий, нужно активировать "Больше опций".

Возможные настройки

Название параметраЗначение по умолчаниюОписание
Bypass CloudFlare with Chrome Max Pages10Макс. кол-во страниц при обходе CF через Chrome
Bypass CloudFlare with Chrome HeadlessЕсли опция включена, браузер не будет отображаться во время обхода CF через Chrome
Use sessionCохраняет хорошие сессии, что позволяет парсить еще быстрее, получая меньшее число ошибок.