Рефспам

Пресет A-Parser + Рефспам 1.2

Available for license holders
  • Автор темы Автор темы komyak
  • Дата начала Дата начала
Теперь вроде есть
Ввинтить бы puppeter
Скорость понятно упадет радикально, нагрузка в гору тоже радикально
но толк должен быть, и не только рефспам
brtuy_201218090245.png

Сейчас уже можно использовать chrome в Net::HTTP Net::HTTP на последних версиях А-Парсера. Переопределите опцию Engine и укажите там Chrome, также обратите внимание на опцию Chrome Wait Until, она будет определять, когда страница считается загруженной.

  • load - consider navigation to be finished when the load event is fired.
  • domcontentloaded - consider navigation to be finished when the DOMContentLoaded event is fired.
  • networkidle0 - consider navigation to be finished when there are no more than 0 network connections for at least 500 ms.
  • networkidle2 - consider navigation to be finished when there are no more than 2 network connections for at least 500 ms.
 
  • Like
Реакции: wuu
Проблема
Судя по всему не в пресете
При включении Engine Chrome поток залипает на некоторых сайтах - ждет клика в модальном окне. Настройка WaitUntil значения не имеет.
Таких сайтов в базе менее 0,1%, но через несколько часов работы парсинг останавливается.
Если отключен Headless в окне браузера достаточно кликнуть для завершения просмотра и продолжения парсинга.
Примеры сайтов
https://stal50.ru/
https://roubloff.com.ua/
https://nutram.spb.ru/
https://www.artresinlab.com/
https://chetk.info/
https://cmk71.ru/
https://shpilevacakes.ru/
https://dhi.krasnoarmeiki.ru/
https://medvegonok.com.ua/
https://www.medprivet.ru/
https://klimkhp.by/
https://kurs2030.ru/
 
Какой параметр нужно изменить, чтобы к примеру, 100 раз обращался
 
а как сделать чтобы парсер обращался еще и на главную страницу?
 
Назад
Верх