Вобщем задача: Скормить парсеру энное кол-во страниц и оттуда выдернуть все ссылки - абсолютно все что начинается на http/https Ссылки на картинки, css-ы яваскрипты, фавиконы, внутренние ссылки, внешние ссылки, все пути. Пол дня мучался но ничего у меня не вышло т.к. в регулярках я нуб полнейший. Можете помочь мне в данном вопросе? Желательно скрином правильной настройки. Я так понимаю там делов на 5 минут но что делать когда ты ничего не понимаешь в этих делах(
Оно к сожалению не хочет извлекать ссылки на фавиконы, яваскрипты, css-ы Для примера: Парсим сайт http://site.ru/ На http://site.ru/ есть в коде ссылка на фавикон который имеет путь: http://site.ru/templatesz/images/favicon.ico, ссылка на css который имеет путь http://site.ru/includes/inc/default.css и т.д. Так вот нужно чтобы парсер эти ссылки тоже парсил . Как это можно реализовать?
Использовать Net::HTTP + регулярки но основная масса путей будет отностильная, т.е. придется потом еще обрабатывать дополнительно
С помощью каких регулярок? Может все же подскажите? (скрином) Я как бэ знаю что мне нужно это регулярками отсеять (писал в стартпосте). Насчет относительных путей - они на данный момент меня не интересуют вообще.
для неопределенных разовых задач(а эта как раз к ним относиться) существует Net::HTTP + регулярки если знаний регулярок нету - можешь попробовать оформить точное ТЗ и выложить на форуме с указанием бюджета, я думаю найдутся исполнители
Если речь о ссылках на изображения - выдирать их регуляркой, т.е. искать тег <img Если речь о сохранении на диск - дополнительно воспользоваться Net::HTTP для выкачивания изображений
Скажите пожалуйста щас какие настройки надо ввести чтобы собрать абсолютно все ссылки со страницы (включая относительные). В идеале код для импорта, 3 часа играюсь никак не могу получить все ссылки со страницы((
Здравствуйте. Попробуйте так. Спойлер: Код для импорта eJx1U01v2zAM/S9EgK5AlqCHXnzLigXbkDbtmp3SHoSIzrTIkirSWQoj/32U7NhL 191E8vHx8UMNsKId3UckZIJi3UDIbyhAY6lqyzCGoCJhTOE1fFndLopiYdzu84Gj 2rCPguixDfBrQMn2e4zRaJSg0WKXPlaKhbul3CtbJ9jIOLZCRpMW8OFilMynJ3dx OcLDf2NwfH4eQ0tH8xxObOFq0unvg49qjyufFBiLg3su1p2qsgatGFP0VOdywofE oLQ2bLxTtq2QJjBU/eHMS+6BOBq3FbyY0SDNo6/EzZhJkvP1pHANo2yD0NQ5/6HN gaJUlnAMJHLnSsTotxHDGJWMexmSJvE34N3M2gXu0Q6wzP+pNlbLymalJH3tEt+H LP/hOPYt/l1K9vk7ioYBpP3Cb6VR56XNHWLoJ3KXPJWP2BN0lTteubeALp3FsJBZ GFxnAs+Gfu7ceFea7bI7tROydis56qW78VWwmBS72loZOOH3Yfkz6gacjEHg2+Sb XOLsO7D3lr49tlJDNHJc1/3yxfuTOVAxnaqP7ceZbHw1ldOqq6mcbf+d+k/XvPup iuYoM/5F9y06qUxY8Um7JFOF4ur4B9ouVII=
Как собрать все внутренние ссылки на сайте? HTML::LinkExtractor не справляется, задаю уровень парсинга 100, но он собрал только 50% , что еще надо выставить что бы собрал все ссылки?
HTML::LinkExtractor соберет только те ссылки, к которым можно спуститься, начиная с начальной страницы (поданной на вход). Если же какая-то страница лежит отдельно и ссылка на нее не встречается на других, то она никак не попадет в результат. Как вариант, если сайт проиндексирован поисковиком (например, Гугл), можно попробовать спарсить оттуда все необходимые ссылки, используя поисковые операторы выбранного поисковика и функцию Parse all results либо макросы подстановок.