парсинг html версии страниц для дальнейшего парсинга javascript защиты

vlad · 5 Сен 2013

Хочу парсить страницы один в один, интересует только код (делать html версию, без картинок и т.д)

Для дальнейшего обрабатывания javascript защиты.

На данный момент имею такие настройки.

Сохраняю каждую страницу в отдельный файл

Все ли верно я делаю?

И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi)
По сути оно будет мне сохранять код целого фильма 1,5 гб)))

*.ace
*.ani
*.arc
*.arj
*.avi
*.bh
*.bmp
*.cab
*.cla
*.class
*.css
*.exe
*.gif
*.gz
*.ico
*.jar
*.jpeg
*.jpg
*.lha
*.mid
*.mov
*.mp2
*.mp3
*.mpeg
*.mpg
*.pdf
*.png
*.rar
*.riff
*.rmi
*.tar
*.tif
*.tiff
*.wav
*.xbm
*.z
*.zip

Forbidden · 6 Сен 2013

чтобы сохранять только контент страницы необходимо указать в Result format: {data}

vlad сказал(а):
И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi) По сути оно будет мне сохранять код целого фильма 1,5 гб)))

Игнорировать никак - только если вручную отредактировать базу запросов

1.5 гб не будет сохранять - по умолчанию Max body size(размер страницы) в парсере Net::HTTP ограничен в 1мб

vlad · 6 Сен 2013

ок спасибо, но у меня вот такое получилось на выходе

Forbidden · 6 Сен 2013

Если в сокет успело прилететь больше данных - парсер их использует

парсинг html версии страниц для дальнейшего парсинга javascript защиты

vlad

A-Parser Pro License

Forbidden

Administrator

vlad

A-Parser Pro License

Forbidden

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка