1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг скрытого блока

Тема в разделе "Техническая поддержка", создана пользователем zbest, 19 сен 2018.

  1. zbest

    zbest A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 фев 2013
    Сообщения:
    36
    Симпатии:
    5
    Добрый день.

    Есть скрытый блок, внутри урл: <div style="display: none">ulr</div>
    и этот блок с урл при заходе на сайт становится видимой секунд через 10.
    и мне нужно спарсить эти ссылки.

    Я скачал страницу через HTML::TextExtractor, и через конструктор регулярок нашел этот скрытый блок. как мне добраться внутр этого блока?
     
  2. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте. Если блок скрыт только из-за стиля, он все равно присутствует в теле страницы, в независимости от его видимости, что подтверждается тем, что вы его достали регуляркой. Теперь, точно так же выберите урлы из выбранного блока с помощью регулярных выражений.
    [​IMG]
     
    #2 Support Денис, 19 сен 2018
    Последнее редактирование: 19 сен 2018
    zbest нравится это.
  3. zbest

    zbest A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 фев 2013
    Сообщения:
    36
    Симпатии:
    5
    Никак не могу добраться до url, результат none. документацию читал.
    Без названия.png

    [​IMG]
    Покажите с примером пожалуйста

    <div id="alternatives" class="mt-2" style="display: none">
    <h2 id="file-available">
    Your download will begin in a moment.<br>
    <a class="btn btn-success btn-responsive" href="URL" target="_blank">Go to PDF</a>
    </h2>
    </div>
     
  4. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Если речь о регулярке то вот она
    [​IMG]
    И укажите урл запроса текстом. Чтобы со скриншота по буквам не переписывать.
     
  5. zbest

    zbest A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 фев 2013
    Сообщения:
    36
    Симпатии:
    5
    Хорошо

    По вашему регулярке находил 2 других урл, не те что мне надо.
    1.jpg

    Потом я через тестовый режим спарсил страницу https://www.pdfdrive.com/reclaim-your-heart-by-yasmin-mogahed-d60375007.html
    перешел в конструктор регулярок

    2.jpg


    И там блок с нужным урл скрытый

    3.jpg


    Если вставить этот код и поискать по вашей регуляркой нотпаде находит только те две урл который находил апарсер

    4.jpg


    Проблема в том что нет доступа к этому скрытому дивку
     
  6. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Данный блок с урлом приходит ajax запросом.
    Для решения этой задачи, вам прийдется писать JS парсер который будет это запрос отправлять.
    Найти этот запрос, и какие данные он передает вы можете в браузере в инструментах разработчика
    [​IMG]
     
    zbest нравится это.
  7. zbest

    zbest A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    10 фев 2013
    Сообщения:
    36
    Симпатии:
    5
    спасибо
     
    Support Денис нравится это.

Поделиться этой страницей