Здравствуйте, Часто возникает проблема, когда используешь "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих. При малейшей жалобе на автоматический кравлер они блокируют сервера. Требования у DigitalOcean, Amazon и прочих простые: - обязательно исполнять директиву Disallow из robots.txt Как можно "заставить" а-парсер не ходить на сайты, если в robots.txt указано: User-agent: * Disallow: /
1. Не использовать "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих, что вам прочих мало? 2. Сначало собрать все robots.txt и отфильтровать все без Disallow: / 3. Построить свой парсер с использованием уникальной возможности создавать свои парсеры на языке JavaScript