Cloudflare::Radar - Scraper Cloudflare Radar

Przegląd scrapera
Scraper Cloudflare Radar pozwala szybko określić kategorię witryny na podstawie nazwy domeny.
Zapisywanie wyników jest możliwe w dowolnej formie i strukturze, dzięki wbudowanemu potężnemu silnikowi szablonów Template Toolkit, który pozwala stosować dodatkową logikę do wyników i wyświetlać dane w różnych formatach, w tym JSON, SQL i CSV
Zbierane dane
Dane są zbierane z serwisu radar.cloudflare.com
- Kategorie witryny
Zastosowania
- Określanie, do jakiej kategorii witryn należy domena
Zapytania
Jako zapytania należy podać listę domen, na przykład:
a-parser.com
yandex.ru
google.com
vk.com
facebook.com
youtube.com
Warianty wyświetlania wyników
A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala na wyświetlanie wyników w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON
Wynik domyślny
Format wyniku:
$query: $categories.format('$name, ')\n
Przykład wyniku, w którym wyświetlane są kategorie i ich opisy:
a-parser.com: Business, Business & Economy,
yandex.ru: News & Media, Entertainment,
vk.com: Social Networks, Society & Lifestyle,
youtube.com: Video Streaming, Entertainment,
facebook.com: Social Networks, Society & Lifestyle,
google.com: Search Engines, Technology,
Wynik w tabeli CSV
Format wyniku:
[% FOREACH categories;
tools.CSVline(name, desc);
END %]
Przykład wyniku:
Business,"Sites related to business."
"Business & Economy","Sites that are related to business, economy, finance, education, science and technology."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Social Networks","Sites that facilitate interaction and networking between people."
"Society & Lifestyle","Sites related to lifestyle that are not included in other categories like fashion, food & drink etc."
"Search Engines","Sites that allow users to search for content using keywords."
Technology,"Sites related to technology that are not included in the science category."
"News & Media","Sites related to news and media."
Entertainment,"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc."
Zrzut wyników do JSON
Ogólny format wyniku:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.categories = [];
FOREACH item IN p1.categories;
obj.categories.push({
name = item.name
desc = item.desc
});
END;
obj.json %]
Tekst początkowy:
[
Tekst końcowy:
]
Przykład wyniku:
[{"query":"yandex.ru","categories":[{"desc":"Sites related to news and media.","name":"News & Media"},{"desc":"Sites related to entertainment that are not includeded in other categories like Comic books, Audio streaming, Video streaming etc.","name":"Entertainment"}]},{"query":"google.com","categories":[{"desc":"Sites that allow users to search for content using keywords.","name":"Search Engines"},{"desc":"Sites related to technology that are not included in the science category.","name":"Technology"}]},{"query":"a-parser.com","categories":[{"desc":"Sites related to business.","name":"Business"},{"desc":"Sites that are related to business, economy, finance, education, science and technology.","name":"Business & Economy"}]}]
Aby opcje "Prepend text" i "Append text" były dostępne w Edytorze zadań, należy aktywować "More options".
Możliwe ustawienia
| Nazwa parametru | Wartość domyślna | Opis |
|---|---|---|
| Bypass CloudFlare with Chrome Max Pages | 10 | Maks. liczba stron podczas obchodzenia CF przez Chrome |
| Bypass CloudFlare with Chrome Headless | ☑ | Jeśli opcja jest włączona, przeglądarka nie będzie wyświetlana podczas obchodzenia CF przez Chrome |
| Use session | ☑ | Zapisuje dobre sesje, co pozwala na jeszcze szybsze scrapowanie przy mniejszej liczbie błędów. |