Здравствуйте,
Часто возникает проблема, когда используешь "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих.
При малейшей жалобе на автоматический кравлер они блокируют сервера.
Требования у DigitalOcean, Amazon и прочих простые:
- обязательно исполнять директиву Disallow из robots.txt
Как можно "заставить" а-парсер не ходить на сайты, если в robots.txt указано:
User-agent: *
Disallow: /
Часто возникает проблема, когда используешь "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих.
При малейшей жалобе на автоматический кравлер они блокируют сервера.
Требования у DigitalOcean, Amazon и прочих простые:
- обязательно исполнять директиву Disallow из robots.txt
Как можно "заставить" а-парсер не ходить на сайты, если в robots.txt указано:
User-agent: *
Disallow: /