парсинг html версии страниц для дальнейшего парсинга javascript защиты

vlad · 5 сен 2013

Хочу парсить страницы один в один, интересует только код (делать html версию, без картинок и т.д)

Для дальнейшего обрабатывания javascript защиты.

На данный момент имею такие настройки.

Сохраняю каждую страницу в отдельный файл

Все ли верно я делаю?

И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi)
По сути оно будет мне сохранять код целого фильма 1,5 гб)))

*.ace
*.ani
*.arc
*.arj
*.avi
*.bh
*.bmp
*.cab
*.cla
*.class
*.css
*.exe
*.gif
*.gz
*.ico
*.jar
*.jpeg
*.jpg
*.lha
*.mid
*.mov
*.mp2
*.mp3
*.mpeg
*.mpg
*.pdf
*.png
*.rar
*.riff
*.rmi
*.tar
*.tif
*.tiff
*.wav
*.xbm
*.z
*.zip

Forbidden · 6 сен 2013

чтобы сохранять только контент страницы необходимо указать в Result format: {data}

vlad сказал(а): ↑

И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi) По сути оно будет мне сохранять код целого фильма 1,5 гб)))
Нажмите, чтобы раскрыть...

Игнорировать никак - только если вручную отредактировать базу запросов

1.5 гб не будет сохранять - по умолчанию Max body size(размер страницы) в парсере Net::HTTP ограничен в 1мб

vlad · 6 сен 2013

ок спасибо, но у меня вот такое получилось на выходе

Forbidden · 6 сен 2013

Если в сокет успело прилететь больше данных - парсер их использует

парсинг html версии страниц для дальнейшего парсинга javascript защиты

vlad A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

vlad A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

парсинг html версии страниц для дальнейшего парсинга javascript защиты

vlad A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

vlad A-Parser Pro License A-Parser Pro

Forbidden Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

vlad A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise

vlad A-Parser Pro License
A-Parser Pro

Forbidden Administrator
Команда форума A-Parser Enterprise