1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

На большом количестве потоков многие сайты не парсятся

Тема в разделе "Техническая поддержка", создана пользователем yadzha, 13 ноя 2020.

  1. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    Доброго времени всем,
    Заметил такую беду. Ставлю количество потоков 2000, запускаю парсер, собираю с множества сайтов регуляркой определенную информацию. Процессор загружен на 5-10%, все летает нормально. Но что-то дернуло меня перепроверить данные вручную. Заметил, что на некоторых сайтах необходимая информация присутствует, а парсер ее не смог вытащить.

    Далее делаю тесты. При запущенном основном парсере запускаю тестовый парсинг, сайт выдает 596 ошибку. Останавливаю основной парсер и вуаля - тестовый парсер вытащил необходимую инфу.

    Собственно вопрос, что за ерунда такая происходит? Как понимаю, слишком много потоков в работе, из за чего какие-то сайты не открываются. Но процессор ведь не нагружен совершенно, памяти предостаточно. Как понять, какой безопасный лимит потоков, чтобы парсер открывал все сайты и чтобы информация не пропадала ?
     
    #1 yadzha, 13 ноя 2020
    Последнее редактирование: 13 ноя 2020
  2. Support Artur

    Support Artur A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    172
    Симпатии:
    49
  3. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    Я не использую прокси. 1 сайт = 1 запрос. Сайтов несколько миллионов, прокси ненужны.

    Подозреваю, что эта проблема из за лимита по ДНС запросам от Google 8.8.8.8. Собственно вопрос, возможно ли настроить A-parser таким образом, чтобы распределить нагрузку между несколькими разными ДНС серверами?
     
  4. Support Artur

    Support Artur A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    172
    Симпатии:
    49
    Покажите скрин неудачного запроса в логе задания
     
  5. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    [​IMG]

    Запустил парсер в 3000 потоков. Как видно из лога, очень многие сайты отдают ошибку 596. При этом, через браузер захожу на эти сайты - все ОК, открываются. Также, если останавливаю основной многопоточный парсер и запускаю тестовый парсинг для каждого из этих сайтов, там все ОК, по одному сайты парсятся корректно.
     
  6. Support Artur

    Support Artur A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    172
    Симпатии:
    49
    Слишком большое кол-во потоков.
    к примеру если 100 мбит подключение, то
    100 * 1024 / 3000 = 34.1333333333333

    это значит что каждый сайт должен грузится со скоростью 34кбит\с
     
  7. yadzha

    yadzha A-Parser Pro License
    A-Parser Pro

    Регистрация:
    18 июн 2013
    Сообщения:
    68
    Симпатии:
    6
    Канал на сервере 500мбит. Сейчас вот запустил 200 потоков, 596 ошибок стало сильно меньше (около 5-10% от общего кол-ва), но все равно это ерунда какая-то. Мощный сервер, широкий канал, а парсит через пень-колоду. Все таки думаю, что это проблема с ДНС. Нашел в хелпе такую функцию :

    [​IMG]

    Работает ли этот функционал? Можно создать конфиг файл и добавить в него с десяток разных ДНС серверов?
     
  8. Support Artur

    Support Artur A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    6 апр 2020
    Сообщения:
    172
    Симпатии:
    49
    Да, можно
     

Поделиться этой страницей