парсинг html версии страниц для дальнейшего парсинга javascript защиты

  • Автор темы Автор темы vlad
  • Дата начала Дата начала

vlad

A-Parser Pro License
A-Parser Pro
Хочу парсить страницы один в один, интересует только код (делать html версию, без картинок и т.д)

Для дальнейшего обрабатывания javascript защиты.

На данный момент имею такие настройки.
11.png
Сохраняю каждую страницу в отдельный файл
22.png

Все ли верно я делаю?

И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi)
По сути оно будет мне сохранять код целого фильма 1,5 гб)))

*.ace
*.ani
*.arc
*.arj
*.avi
*.bh
*.bmp
*.cab
*.cla
*.class
*.css
*.exe
*.gif
*.gz
*.ico
*.jar
*.jpeg
*.jpg
*.lha
*.mid
*.mov
*.mp2
*.mp3
*.mpeg
*.mpg
*.pdf
*.png
*.rar
*.riff
*.rmi
*.tar
*.tif
*.tiff
*.wav
*.xbm
*.z
*.zip
 
чтобы сохранять только контент страницы необходимо указать в Result format: {data}

И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi) По сути оно будет мне сохранять код целого фильма 1,5 гб)))

Игнорировать никак - только если вручную отредактировать базу запросов

1.5 гб не будет сохранять - по умолчанию Max body size(размер страницы) в парсере Net::HTTP ограничен в 1мб
 
ок спасибо, но у меня вот такое получилось на выходе

new.png
 
Если в сокет успело прилететь больше данных - парсер их использует
 
Назад
Верх