Улучшение Подчинить А-парсер директиве Disallow из robots.txt

DeXtR

A-Parser Enterprise License
A-Parser Enterprise
Здравствуйте,
Часто возникает проблема, когда используешь "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих.
При малейшей жалобе на автоматический кравлер они блокируют сервера.

Требования у DigitalOcean, Amazon и прочих простые:
- обязательно исполнять директиву Disallow из robots.txt

Как можно "заставить" а-парсер не ходить на сайты, если в robots.txt указано:
User-agent: *
Disallow: /
 
Здравствуйте,
Часто возникает проблема, когда используешь "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих.
При малейшей жалобе на автоматический кравлер они блокируют сервера.

Требования у DigitalOcean, Amazon и прочих простые:
- обязательно исполнять директиву Disallow из robots.txt

Как можно "заставить" а-парсер не ходить на сайты, если в robots.txt указано:
User-agent: *
Disallow: /
1. Не использовать "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих, что вам прочих мало?
2. Сначало собрать все robots.txt и отфильтровать все без Disallow: /
3. Построить свой парсер с использованием уникальной возможности создавать свои парсеры на языке JavaScript
 
Назад
Верх