1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

LinkExtractor и потоки

Тема в разделе "Техническая поддержка", создана пользователем Master, 27 май 2015.

  1. Master

    Master A-Parser Pro License
    A-Parser Pro

    Регистрация:
    15 апр 2015
    Сообщения:
    11
    Симпатии:
    15
    Здравствуйте
    Пользуюсь парсером HTML::LinkExtractor без прокси в 300 потоков и настройкой Parse to level 1, для списка доменов. Если парсить без Parse to level, то скорость хорошая порядка 8000-10000, а с активированной падает до 100-200. Я думаю это из за того, что парсится один и тот же сайт во всех потоках, можно ли сделать, что бы в каждом потоке парсились разные сайты или есть другое решение увеличить скорость?
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Такой возможности нет, т.к. парсер старается чтобы необработанные запросы не разрастались, поэтому обходит сайты по порядку
     
  3. Master

    Master A-Parser Pro License
    A-Parser Pro

    Регистрация:
    15 апр 2015
    Сообщения:
    11
    Симпатии:
    15
    А если собрать ссылки в фаил, далее перемешать в файле и парсить, должно ускориться ?)

    есть возможность перемешать посредством парсера?
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Такой возможности нету.
    Врядли, ведь то время которое вы потратите на сбор-перемешивание, скорее всего будет больше, чем сэкономленное время (это при условии, что работа действительно ускорится - а проверить это можно только попробовав).
     
  5. Master

    Master A-Parser Pro License
    A-Parser Pro

    Регистрация:
    15 апр 2015
    Сообщения:
    11
    Симпатии:
    15
    сделал тест на небольшом кол-во доменов 200к
    скорость увеличилась


    sort -R file.txt >>file_rand.txt
    перемешать случайно


    теоретически абуз должно меньше быть, т.к. парсим с разбросом по времени, а не всю кучу.
     
    #5 Master, 27 май 2015
    Последнее редактирование: 27 май 2015
    Support нравится это.
  6. Fast25

    Fast25 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    5 июл 2013
    Сообщения:
    5
    Симпатии:
    0
    Было бы хорошо иметь опцию по теме данного топика. чтобы спаршенные линки следующего уровня добавлялись в отдельный массив и перемешивались. а использовать после исходных линков только. 1000 потоков на сайт тормозят и сам сайт и парсинг в общем. а если 1000 сайтов по 1 потоку то уже другое дело.
     

Поделиться этой страницей