Парсер Cloudflare Radar

Парсер Парсер Cloudflare Radar 1.2

Доступно владельцам лицензии
Статус
Закрыто для дальнейших ответов.

Support Vlad

A-Parser Enterprise License
A-Parser Enterprise
Пользователь Support Vlad разместил новый ресурс:

Парсер Cloudflare Radar - Парсинг категорий сайтов с radar.cloudflare.com

Для работы пресета необходимо установить модуль puppeteer в директории /aparser/files/.
Код:
npm i puppeteer

g5spg_201021200450.png

В качестве запросов следует указывать домены. В результате будут выведены категории для каждого домена.

vk.com: Social Networks – Sites that facilitate interaction and networking between people.
Society & Lifestyle – Sites hosting information about lifestyle that are not...

Узнать больше об этом ресурсе...
 
почему может быть ошибка ?

Error: Start: JS::Cloudflare::Radar Error: Cannot init Parser: Error: Access to child_process.spawn with arguments /root/aparser/files/node_modules/puppeteer/.local-chromium/linux-818858/chrome-linux/chrome, --disable-background-networking,--enable-features=NetworkService,NetworkServiceInProcess,--disable-background-timer-throttling,--disable-backgrounding-occluded-windows,--disable-breakpad,--disable-client-side-phishing-detection,--disable-component-extensions-with-background-pages,--disable-default-apps,--disable-dev-shm-usage,--disable-extensions,--disable-features=TranslateUI,--disable-hang-monitor,--disable-ipc-flooding-protection,--disable-popup-blocking,--disable-prompt-on-repost,--disable-renderer-backgrounding,--disable-sync,--force-color-profile=srgb,--metrics-recording-only,--no-first-run,--enable-automation,--password-store=basic,--use-mock-keychain,--enable-blink-features=IdleDetection,--headless,--hide-scrollbars,--mute-audio,about:blank,--remote-debugging-port=0,--user-data-dir=/tmp/puppeteer_dev_chrome_profile-rmfp7E, [object Object] is restricted at Object. (evalmachine.:1:5202) at BrowserRunner.start (/root/aparser/files/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:79:34) at ChromeLauncher.launch (/root/aparser/files/node_modules/puppeteer/lib/cjs/puppeteer/node/Launcher.js:84:16) at async JS_Cloudflare_Radar.init (files/parsers/Cloudflare-Radar/Cloudflare-Radar.js:32:19) at async JS_Cloudflare_Radar.__callParserInit (evalmachine.:1:4438)
 
Последнее редактирование модератором:
а как это подличить ?)
Error: Start: JS::Cloudflare::Radar Error: Cannot init Parser: Error: Failed to launch the browser process! [0106/053704.533184:ERROR:zygote_host_impl_linux.cc(90)] Running as root without --no-sandbox is not supported. See https://crbug.com/638180. TROUBLESHOOTING: https://github.com/puppeteer/puppeteer/blob/main/docs/troubleshooting.md at onClose (/root/aparser/files/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:193:20) at Interface. (/root/aparser/files/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:183:68) at Interface.emit (events.js:327:22) at Interface.close (readline.js:424:8) at Socket.onend (readline.js:202:10) at Socket.emit (events.js:327:22) at endReadableNT (_stream_readable.js:1327:12) at processTicksAndRejections (internal/process/task_queues.js:99:21)
 
Последнее редактирование модератором:
теперь такое )

Error: Start: JS::Cloudflare::Radar Error: Cannot init Parser: Error: Failed to launch the browser process! [0106/061633.610680:FATAL:zygote_host_impl_linux.cc(117)] No usable sandbox! Update your kernel or see https://chromium.googlesource.com/chromium/src/+/master/docs/linux/suid_sandbox_development.md for more information on developing with the SUID sandbox. If you want to live dangerously and need an immediate workaround, you can try using --no-sandbox. #0 0x562d002feb39 base::debug::CollectStackTrace() #1 0x562d002714c3 base::debug::StackTrace::StackTrace() #2 0x562d00281c80 logging::LogMessage::~LogMessage() #3 0x562cfed13f5e content::ZygoteHostImpl::Init() #4 0x562d0021bcf8 content::ContentMainRunnerImpl::Initialize() #5 0x562d00219e0b content::RunContentProcess() #6 0x562d00219f5c content::ContentMain() #7 0x562d0026b3d2 headless::(anonymous namespace)::RunContentMain() #8 0x562d0026b0bc headless::HeadlessShellMain() #9 0x562cfd86ca03 ChromeMain #10 0x7f86adb9d2e1 __libc_start_main #11 0x562cfd86c82a _start Received signal 6 #0 0x562d002feb39 base::debug::CollectStackTrace() #1 0x562d002714c3 base::debug::StackTrace::StackTrace() #2 0x562d002fe6db base::debug::(anonymous namespace)::StackDumpSignalHandler() #3 0x7f86b35490e0 (/lib/x86_64-linux-gnu/libpthread-2.24.so+0x110df) #4 0x7f86adbaffff gsignal #5 0x7f86adbb142a abort #6 0x562d002fd665 base::debug::BreakDebugger() #7 0x562d002820f2 logging::LogMessage::~LogMessage() #8 0x562cfed13f5e content::ZygoteHostImpl::Init() #9 0x562d0021bcf8 content::ContentMainRunnerImpl::Initialize() #10 0x562d00219e0b content::RunContentProcess() #11 0x562d00219f5c content::ContentMain() #12 0x562d0026b3d2 headless::(anonymous namespace)::RunContentMain() #13 0x562d0026b0bc headless::HeadlessShellMain() #14 0x562cfd86ca03 ChromeMain #15 0x7f86adb9d2e1 __libc_start_main #16 0x562cfd86c82a _start r8: 0000000000000000 r9: 00007fffaf359860 r10: 0000000000000008 r11: 0000000000000246 r12: 00007fffaf35ab60 r13: aaaaaaaaaaaaaaaa r14: 00007fffaf35ab70 r15: 00007fffaf35a2f0 di: 0000000000000002 si: 00007fffaf359860 bp: 00007fffaf359aa0 bx: 0000000000000006 dx: 0000000000000000 ax: 0000000000000000 cx: 00007f86adbaffff sp: 00007fffaf3598d8 ip: 00007f86adbaffff efl: 0000000000000246 cgf: 002b000000000033 erf: 0000000000000000 trp: 0000000000000000 msk: 0000000000000000 cr2: 0000000000000000 [end of stack trace] Calling _exit(1). Core file will not be generated. TROUBLESHOOTING: https://github.com/puppeteer/puppeteer/blob/main/docs/troubleshooting.md at onClose (/home/aparserrun/aparser/files/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:193:20) at Interface. (/home/aparserrun/aparser/files/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:183:68) at
 
Хотел поинтересоваться, а как сделать правильно фильтрацию по категории ? к примеру нужно чтобы в результате были только домены с отфильтрованной определённой категорией, но почему-то корректно фильтр не работает, всё равно выводит домены, но уже без категории name & description.
 
Т.к. список категорий - это массив, то сначала нужно отфильтровать массив на наличие нужной категории, а потом отфильтровать результат по размеру этого массива. Т.е. если в массиве остались нужные категории, то выводим результат.
hcq2e_210126093605.png


Подробнее о принципе работы фильтров: https://a-parser.com/wiki/filter/#Особенности-работы
 
А как прокси менять, чтобы пупитер с разными проксями запросы делал?
 
А как прокси менять, чтобы пупитер с разными проксями запросы делал?
Здесь puppeteer используется только для получения необходимых куки в начале парсинга и он работает в принципе без прокси.
Далее парсер работает с обычными запросами и меняет прокси.
 
Перестал парсить категории, не выдаёт результат. дальше Getting cookies ничего не происходит
 
Последнее редактирование:
надо юзер агент поменять, к примеру на
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.99 Safari/537.36

и будет работать
 
не помогает, очень много в Found CloudFlare protection, but Bypass CloudFlare available in Parser API v2 only
 
Добрый день, подскажите пожалуйста, что-то не получается корректно отфильтровать результат, мне например нужно отфильтровать результаты по категории Forums, как сделать вывод только данных результатов, т.е. $query.orig:\n$categories.format('$name\n')\n ?) так как в данный момент оно всё равно показывает query.orig , но без категорий, показывает категорию только когда она попадает под нужную критерию.... А нужно чтобы показывало и query.orig и сами категории только когда оно попало под критерию. Буду признателен за помощь )
 
Последнее редактирование:
Добрый день, подскажите пожалуйста, что-то не получается корректно отфильтровать результат, мне например нужно отфильтровать результаты по категории Forums, как сделать вывод только данных результатов, т.е. $query.orig:\n$categories.format('$name\n')\n ?) так как в данный момент оно всё равно показывает query.orig , но без категорий, показывает категорию только когда она попадает под нужную критерию.... А нужно чтобы показывало и query.orig и сами категории только когда оно попало под критерию. Буду признателен за помощь )
Используйте Фильтр: https://a-parser.com/docs/guides/task-settings/results-filters
И вы можете написать нам в чат поддержки для более оперативной помощи: https://a-parser.com/pages/support/
 
Статус
Закрыто для дальнейших ответов.
Назад
Верх