Хочу парсить страницы один в один, интересует только код (делать html версию, без картинок и т.д)
Для дальнейшего обрабатывания javascript защиты.
На данный момент имею такие настройки.
Сохраняю каждую страницу в отдельный файл

Все ли верно я делаю?
И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi)
По сути оно будет мне сохранять код целого фильма 1,5 гб)))
*.ace
*.ani
*.arc
*.arj
*.avi
*.bh
*.bmp
*.cab
*.cla
*.class
*.css
*.exe
*.gif
*.gz
*.ico
*.jar
*.jpeg
*.jpg
*.lha
*.mid
*.mov
*.mp2
*.mp3
*.mpeg
*.mpg
*.pdf
*.png
*.rar
*.riff
*.rmi
*.tar
*.tif
*.tiff
*.wav
*.xbm
*.z
*.zip
Для дальнейшего обрабатывания javascript защиты.
На данный момент имею такие настройки.
Сохраняю каждую страницу в отдельный файл
Все ли верно я делаю?
И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi)
По сути оно будет мне сохранять код целого фильма 1,5 гб)))
*.ace
*.ani
*.arc
*.arj
*.avi
*.bh
*.bmp
*.cab
*.cla
*.class
*.css
*.exe
*.gif
*.gz
*.ico
*.jar
*.jpeg
*.jpg
*.lha
*.mid
*.mov
*.mp2
*.mp3
*.mpeg
*.mpg
*.png
*.rar
*.riff
*.rmi
*.tar
*.tif
*.tiff
*.wav
*.xbm
*.z
*.zip
