1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

парсинг html версии страниц для дальнейшего парсинга javascript защиты

Тема в разделе "Техническая поддержка", создана пользователем vlad, 5 сен 2013.

  1. vlad

    vlad A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 июл 2013
    Сообщения:
    24
    Симпатии:
    0
    Хочу парсить страницы один в один, интересует только код (делать html версию, без картинок и т.д)

    Для дальнейшего обрабатывания javascript защиты.

    На данный момент имею такие настройки.
    11.png
    Сохраняю каждую страницу в отдельный файл
    22.png

    Все ли верно я делаю?

    И еще как игнорить такие ссылки? Чтобы не сохранять что попало. (к примеру попалась ссылка на фильм http://fs.to/.../*.avi)
    По сути оно будет мне сохранять код целого фильма 1,5 гб)))

    *.ace
    *.ani
    *.arc
    *.arj
    *.avi
    *.bh
    *.bmp
    *.cab
    *.cla
    *.class
    *.css
    *.exe
    *.gif
    *.gz
    *.ico
    *.jar
    *.jpeg
    *.jpg
    *.lha
    *.mid
    *.mov
    *.mp2
    *.mp3
    *.mpeg
    *.mpg
    *.pdf
    *.png
    *.rar
    *.riff
    *.rmi
    *.tar
    *.tif
    *.tiff
    *.wav
    *.xbm
    *.z
    *.zip
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    чтобы сохранять только контент страницы необходимо указать в Result format: {data}

    Игнорировать никак - только если вручную отредактировать базу запросов

    1.5 гб не будет сохранять - по умолчанию Max body size(размер страницы) в парсере Net::HTTP ограничен в 1мб
     
  3. vlad

    vlad A-Parser Pro License
    A-Parser Pro

    Регистрация:
    16 июл 2013
    Сообщения:
    24
    Симпатии:
    0
    ок спасибо, но у меня вот такое получилось на выходе

    new.png
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Если в сокет успело прилететь больше данных - парсер их использует
     

Поделиться этой страницей