Добрый день. Есть скрытый блок, внутри урл: <div style="display: none">ulr</div> и этот блок с урл при заходе на сайт становится видимой секунд через 10. и мне нужно спарсить эти ссылки. Я скачал страницу через HTML::TextExtractor, и через конструктор регулярок нашел этот скрытый блок. как мне добраться внутр этого блока?
Здравствуйте. Если блок скрыт только из-за стиля, он все равно присутствует в теле страницы, в независимости от его видимости, что подтверждается тем, что вы его достали регуляркой. Теперь, точно так же выберите урлы из выбранного блока с помощью регулярных выражений.
Никак не могу добраться до url, результат none. документацию читал. Покажите с примером пожалуйста <div id="alternatives" class="mt-2" style="display: none"> <h2 id="file-available"> Your download will begin in a moment.<br> <a class="btn btn-success btn-responsive" href="URL" target="_blank">Go to PDF</a> </h2> </div>
Если речь о регулярке то вот она И укажите урл запроса текстом. Чтобы со скриншота по буквам не переписывать.
Хорошо По вашему регулярке находил 2 других урл, не те что мне надо. Потом я через тестовый режим спарсил страницу https://www.pdfdrive.com/reclaim-your-heart-by-yasmin-mogahed-d60375007.html перешел в конструктор регулярок И там блок с нужным урл скрытый Если вставить этот код и поискать по вашей регуляркой нотпаде находит только те две урл который находил апарсер Проблема в том что нет доступа к этому скрытому дивку
Данный блок с урлом приходит ajax запросом. Для решения этой задачи, вам прийдется писать JS парсер который будет это запрос отправлять. Найти этот запрос, и какие данные он передает вы можете в браузере в инструментах разработчика