Часто сталкиваюсь с тем, что во время парсинга нужно удалить тот или иной запрос, но в уже действуюшем задании это сделать невозможно и приходится дожидаться пока текущий ненужный запрос допарсится. Можно ли прикрутить такую фичу, чтобы была возможность остановить задание и отфильтровать какой-либо ненужный запрос в уже действующем задании?
Не совсем понятна суть улучшения. Опишите, пожалуйста, подробный алгоритм того, как это должно работать и реальный кейс, где подобное может быть полезным.
Покажу на примере: на скриншоте Qurrent query один из запросов парсится уже несколько часов. Хотя он не нужен, тоесть идет пустая трата времени и ресурсов на парсинг ненужного текущего запроса. Было бы удобно, нажать на паузу и внести текущий запрос в блэклист/фильтр, чтобы пропустить его. Сейчас такой опции нет и приходится дожидаться его окончания.
Если запрос не нужен, то не подавайте его на вход Насколько я понимаю, речь о парсинге в глубину и линкэкстракторе. Для фильтрации ненужных урлов используйте фильтры, а для исключения одинаковых запросов - уникализацию запросов.
Это да, но часто бывает, что в процессе парсинга необходимо удалить ненужный запрос, который уже подан на вход.
к сожалению добавить такой функционал почти невозможно, тем более что текущий запрос отображается лишь для справки, парсер работает в многопоточном режиме, каждый поток обрабатывает свой запрос, и какие либо ручные действия в данном случае не возможны