Быстродействие и ошибки

seowin555

A-Parser Pro License
A-Parser Pro
Приветствую!
1. Если запускать любой пресет с разными данными несколько раз, то почему-то скорость сильно снижается. Например, запущено 1 задание по пресету, скорость в среднем 1000, запускаю второе задание по этому же пресету, у него скорость 100 и у первого также скорость снижается до 100. По идеи если 1000 предел, то скорость ведь должна быть на обоих заданиях хотя 500, ну или просто хотя бы в сумме быть 1000, а в данном случае получается почему-то что быстрее будет, если ставить только 1 задание по пресету.

2. Например, нужно прочекать 1000 доменов на индекс Яндекса, 990 доменов прочекаются довольно быстро, а когда останется примерно 10 доменов, то скорость очень сильно падает, бывает такое, что все результаты могут даже прочекаться быстрее, чем 10 последних и такое наблюдается всегда, при любых действиях.

3. Также замечал что бывает такое, что задание не запускается, пишет ошибку "some error" и парсер пытается все время его запустить(при этом его удалить нельзя, выдает ошибку), потом раза с 10-20 задание все-таки запускается, хотя ошибок в задании нет. Такое бывает даже тогда, когда просто останавливаешь задание и потом пытаешься его запустить.

Помогите понять, почему так происходит? Может быть кто-то встречался уже с такими же проблемами?
Прокси не используются, если бы использовались, то можно было предположить, что проблема в проксях, что не хватает потоков и так далее, но это происходит без проксей.
Лимит потоков на сервере 10024, в а-парсере 9000.

Версия: 1.1.780, linux x64
OC: Centos 6
Процессор: i5
ОЗУ: 16ГБ
Канал: 100мбит
 
Добрый день.
1. Если запускать любой пресет с разными данными несколько раз, то почему-то скорость сильно снижается.
Отвечу на примере. Допустим вы запустили одно задание в 500 потоков. Оно работает со скоростью 1000 запросов в минуту. Парсится один сайт. Запускаете второе такое же, опять же в 500 потоков. Скорость в обоих падает до 100. Так происходит скорее всего из-за выросшей нагрузки (вдвое). Тут нужно учитывать, что нагрузка выросла как на ваш сервер (канал, диск, процессор...), так и на сервер сайта, который вы парсите (любой парсинг - это по сути мини DDoS атака, и чем больше потоков, тем сильнее нагрузка на ресурс). Если же парсится не один, а много разных сайтов, то причина только в возросшей нагрузке на ваш сервер.
2. Например, нужно прочекать 1000 доменов на индекс Яндекса, 990 доменов прочекаются довольно быстро, а когда останется примерно 10 доменов, то скорость очень сильно падает, бывает такое, что все результаты могут даже прочекаться быстрее, чем 10 последних и такое наблюдается всегда, при любых действиях.
Тут нужно искать причину такого поведения. Включайте лог задания, в нем будет видно как идет парсинг. Те несколько запросов, которые остаются в самом конце и долго обрабатываются - скорее всего используют много попыток. Причину можно увидеть в логе задания. Если не получится определить причину - свяжитесь с тех поддержкой по любому контакту: https://a-parser.com/pages/support/
3. Также замечал что бывает такое, что задание не запускается, пишет ошибку "some error" и парсер пытается все время его запустить(при этом его удалить нельзя, выдает ошибку), потом раза с 10-20 задание все-таки запускается, хотя ошибок в задании нет. Такое бывает даже тогда, когда просто останавливаешь задание и потом пытаешься его запустить.
В данном случае Some error говорит о том, что парсер не может связаться с сервером лицензирования. Больше всего похоже на проблемы с интернетом...
 
Снова пытался разобраться, пришел к выводу, что по 1 и 3 пункту проблема все-таки скорее всего с нагрузкой.
По 2 пункту буду еще смотреть.
Сейчас пытаюсь протестировать задания на другом железе, поставил сначала на один впс с windows, там все ок было, поставил на второй более мощный, там почему-то в результаты не сохраняется ничего, в логах следующее: Results collector: Results Collector: Results file allowed only in results/ "results/название ключа.txt" at build/core.to_build.pl line 5447.
Подскажите, как можно решить данную проблему?
 
Скорее всего в имени файла результата присутствуют недопустимые символы, поэтому и возникает ошибка и не создаются файлы
 
Назад
Верх