скачка и парсинг файлов?

t4gs · 10 окт 2019

привет как можно качать файл по списку урлов и потом выдерать с него все строки ?
сейчас курлом качаю файл curl --path-as-is -s -k "http://site.ru/check.txt" > check.txt
потом cat check.txt | strings | grep StatusID | cut -b 10- | sort -u > check_live.txt
тк урлов около 30 то каждый урл и с него скаченный check.txt в ручную обробатываю

как качать списком и сохранят в принципе понятно а вот можно ли качать и тутже выдерать строки чтобы файлами не захломлять диск тк сырой весить 80-90 Mb это в многопотоке?
тоесть берем урл, качаем файл, дергаем все strings из него, записываем в файл с именем домена

Forbidden · 10 окт 2019

скачивать и обрабатывать файлы большого размера в многопоточном режиме - не лучшая задача для парсера, т.к. он хранит в памяти целиком обрабатываемый файл(помноженное на число потоков)

вариант с curl и последующей обработкой в данном случае лучше

скачка и парсинг файлов?

t4gs A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

скачка и парсинг файлов?

t4gs A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

t4gs A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise