Предлагаю реализовать функционал сохранения результатов сразу в архив.
Для избежания возможных проблем, предлагаю использовать формат/ы архивов с поддержкой "splittable compression".
Кандидаты:
1) lzo (fast)
2) bzip2 (slow)
Предлагаемые форматы архивов без проблем можно "склеивать" в один файл, "разделять" и все будет работать из коробки, кроме контрольных сумм, естественно.
Честно говоря, на больших объемах данных столкнулся с банальной проблемой, что по api несжатые файлы скачивать выходит очень долго и накладно по трафу, особенно если сохранять сырые веб-страницы для последующей обработки сторонним софтом. Насколько я понимаю, обработкой результатов занимается отдельный процесс и введение подержи архивов не должно как то влиять на скорость парсинга.
Для избежания возможных проблем, предлагаю использовать формат/ы архивов с поддержкой "splittable compression".
Кандидаты:
1) lzo (fast)
2) bzip2 (slow)
Предлагаемые форматы архивов без проблем можно "склеивать" в один файл, "разделять" и все будет работать из коробки, кроме контрольных сумм, естественно.
Честно говоря, на больших объемах данных столкнулся с банальной проблемой, что по api несжатые файлы скачивать выходит очень долго и накладно по трафу, особенно если сохранять сырые веб-страницы для последующей обработки сторонним софтом. Насколько я понимаю, обработкой результатов занимается отдельный процесс и введение подержи архивов не должно как то влиять на скорость парсинга.