скачка и парсинг файлов?

  • Автор темы Автор темы t4gs
  • Дата начала Дата начала

t4gs

A-Parser Enterprise License
A-Parser Enterprise
привет как можно качать файл по списку урлов и потом выдерать с него все строки ?
сейчас курлом качаю файл curl --path-as-is -s -k "http://site.ru/check.txt" > check.txt
потом cat check.txt | strings | grep StatusID | cut -b 10- | sort -u > check_live.txt
тк урлов около 30 то каждый урл и с него скаченный check.txt в ручную обробатываю

как качать списком и сохранят в принципе понятно а вот можно ли качать и тутже выдерать строки чтобы файлами не захломлять диск тк сырой весить 80-90 Mb это в многопотоке?
тоесть берем урл, качаем файл, дергаем все strings из него, записываем в файл с именем домена
 
скачивать и обрабатывать файлы большого размера в многопоточном режиме - не лучшая задача для парсера, т.к. он хранит в памяти целиком обрабатываемый файл(помноженное на число потоков)

вариант с curl и последующей обработкой в данном случае лучше
 
Назад
Верх