1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение Подчинить А-парсер директиве Disallow из robots.txt

Тема в разделе "Задачи", создана пользователем DeXtR, 3 дек 2016.

Метки:
  1. DeXtR

    DeXtR A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    30 окт 2014
    Сообщения:
    10
    Симпатии:
    1
    Здравствуйте,
    Часто возникает проблема, когда используешь "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих.
    При малейшей жалобе на автоматический кравлер они блокируют сервера.

    Требования у DigitalOcean, Amazon и прочих простые:
    - обязательно исполнять директиву Disallow из robots.txt

    Как можно "заставить" а-парсер не ходить на сайты, если в robots.txt указано:
    User-agent: *
    Disallow: /
     
  2. relay

    relay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 июл 2013
    Сообщения:
    157
    Симпатии:
    103
    1. Не использовать "белых" сервер-провайдеров типа DigitalOcean, Amazon и прочих, что вам прочих мало?
    2. Сначало собрать все robots.txt и отфильтровать все без Disallow: /
    3. Построить свой парсер с использованием уникальной возможности создавать свои парсеры на языке JavaScript
     

Поделиться этой страницей