Хочу парсить страницы один в один, интересует только код (делать html версию, без картинок и т.д) Для дальнейшего обрабатывания javascript защиты. На данный момент имею такие настройки. Сохраняю каждую страницу в отдельный файл Все ли верно я делаю? И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi) По сути оно будет мне сохранять код целого фильма 1,5 гб))) *.ace *.ani *.arc *.arj *.avi *.bh *.bmp *.cab *.cla *.class *.css *.exe *.gif *.gz *.ico *.jar *.jpeg *.jpg *.lha *.mid *.mov *.mp2 *.mp3 *.mpeg *.mpg *.pdf *.png *.rar *.riff *.rmi *.tar *.tif *.tiff *.wav *.xbm *.z *.zip
чтобы сохранять только контент страницы необходимо указать в Result format: {data} Игнорировать никак - только если вручную отредактировать базу запросов 1.5 гб не будет сохранять - по умолчанию Max body size(размер страницы) в парсере Net::HTTP ограничен в 1мб