Несколько дней успешно парсил сайт, расположенный на Амазоновских серверах. Сайт прекрасно отдавал страницы, даже без прокси - 2-3000 в минуту - легко. Через 2 дня начались перебои, скорость падала до 200, а потом и вообще до 50. Сейчас делаю паузу на 4 часа, пускаю - скорость первые минуты - 1000, потом опять падает до 40-50. Почитал условия аренды этих серверов - сложно разобраться, там есть лимиты по всем параметрам Собственно вопрос, может профи знают- Когда кончается ограничение (лимит) трафика на серверах Амазон AWS ? Ждать следующего платежного периода или вообще в следующем году только?
Без прокси все прекрасно парсилось 3 дня, а с прокси от апарсера - чуть медленнее, думаю что это ключились именно какие-то лимиты на исходящий трафик.
У Amazon как такового нет лимита на трафик, но есть лимиты на I/O операции, все зависит от пакета, но у них нет такого резкого ограничения, если бы Вы нарвались на ограничения то сразу же. У Amazon есть AWS WAF rate-based ограничения, которые могут лимитировать подозрительные запросы. Попробуйте сбалансировать запросы добавив паузу между запросами, также если страница большая, и Вам нужен только кусок, то читайте только до этого места. Используйте рандомизированный User-Agent, лучше свой список потому что в A-parser слишком маленький набор user-agent-ов(всего 275 штук), который легко забанить, используйте свой или node.js библиотеку faker.js. Можете добавить свои дополнительные HTTP заголовки. Также можете блокировать прокси сервер в A-parser-е на 10-20 секунд, после каждого успешного запроса, чтобы IP проксей не банились так быстро, выставив 1 поток для одного прокси в настройках Config preset.
Пробовал - не помогает Пробовал, сделал 9000 user-agents - не помогло Не пробовал, так как не знаю какие добавлять... Тоже пробовал - с одного ИП парсит быстрее, на прокси от апарсера скорость на 20% меньше. Приаттачил скриншот, на котором отображен график трафика, видны всплески и падения. В начале парсинга первые 3 дня, тоже били ступеньки, но так низко не было. Я считаю, что у сайта исчерпался какой-то ресурс - дневной или недельный или не дай бг месячный, и когда он немного накапливается - скорость возрастает, ресурс кончается, скорость снова падает. Надо бы конечно дать сайту "отдохнуть", но времени ждать нет. [/QUOTE] На графике одно деление по горизонтали - 6 секунд