Как использовать 1 прокси НЕ ЧАЩЕ 3-4 раз в минуту? Столкнулся с сайтом, который отдает на один IP адрес НЕ более 3-5 страниц в минуту, иначе банит прокси (IP) надолго. Настройка параметра "Время бана прокси" (пауза после неудачной попытки) работает только для неудачных попыток. А для удачных запросов - есть такой параметр, как пауза в работе с одного IP? Вопрос: Как организовать парсинг, чтобы один IP прокси использовался с паузами в 10-30 секунд?
Добрый день. Как вариант - можно написать JS парсер, в котором после каждого запроса прокси будет баниться на 30 сек. Для этого нужно указать Время бана прокси 30 сек и использовать this.proxy.ban() после каждого успешного запроса.
А можно этот код "this.proxy.ban()" прикрутить в старотипному пресету, в котором JS не используется? Пожалуйста сделайте микропример как это использовать.
this.proxy.ban() - это метод, используемый в JS парсерах, в обычных пресетах этого нет. https://a-parser.com/wiki/js-parsers/#11-this-proxy
В настройках стандартного парсера в поле "задержка запросов" поставьте 30 секунд (это пауза). в настройках потоков в поле "Максимум потоков на один прокси" поставьте 1 т.е что будет - один прокси в один момент времени будет использоваться только одним потоком, а задержка запросов гарантирует, что между запросами с одним и тем же прокси будет минимум 30 секунд.
... Я так и делаю, немного помогает)) Но я думаю, что поле "задержка запросов" - означает задержку работы одного потока, а использованный этим потоком IP прокси после его освобождения может быть взято сразу же взят другим потоком, ведь этот прокси успешно отработал и бана на нем нет. Так что я считаю, что "задержка запросов" помогает только условно, через общую задержку работы апарсера. Поэтому если добавить в апарсер поле - "Задержка повторного использования прокси" было бы полезно, надеюсь не мне одному.
Цитата из Документации (https://a-parser.com/wiki/settings-and-presets/#Общие-настройки-для-всех-парсеров): Т.е. перед выполнением каждого запроса парсер будет ждать указанное время.
Туманный ответ! КАКАЯ часть апарсера будет ждать указанное время? Каждый поток? ВСЕ потоки одновременно и синхронно встают на паузу? КАКОЙ IP прокси будет использоваться потоком после паузы - первый попавшийся из рабочих?? Что будет с IP прокси, освободившегося от потока вставшего на паузу - переходит в общее пользование или тоже отдыхает указанное время? КАЖДЫЙ IP прокси будет "отдыхать" указанное время?
ну раз ответа нет, попробую предположить - вот идет парсинг в 100 потоков, стоит задержка в 20 секунд. Это значит - каждый поток после каждого УРЛ делает паузу 20 сек. Я правильно понял? И что при этом будет с освободившимя на время паузы потока IP прокси - он может быть сразу же использован другим потоком, который уже выдержал свою паузу в 20 сек? Получаестся, что с одно IP запросы могут идти без пауз, несмотря на то, что потоки делают паузу, прокси используются БЕЗ ПАУЗ.
То есть для пары поток+Прокси наступает пауза для ОБОИХ, потом поток начинает работу, а прокси преходит в список свободных и может быть взято любым потоком, так? Или освободившийся прокси попадает в КОНЕЦ списка свободных прокси?