Парсинг всех ссылок на сайте

Iura · 8 янв 2014

Вобщем задача:
Скормить парсеру энное кол-во страниц и оттуда выдернуть все ссылки - абсолютно все что начинается на http/https
Ссылки на картинки, css-ы яваскрипты, фавиконы, внутренние ссылки, внешние ссылки, все пути.
Пол дня мучался но ничего у меня не вышло т.к. в регулярках я нуб полнейший.
Можете помочь мне в данном вопросе? Желательно скрином правильной настройки. Я так понимаю там делов на 5 минут но что делать когда ты ничего не понимаешь в этих делах(

Forbidden · 8 янв 2014

Для извлечения ссылок есть специальный парсер http://a-parser.com/wiki/linkextractor/

Iura · 8 янв 2014

Оно к сожалению не хочет извлекать ссылки на фавиконы, яваскрипты, css-ы
Для примера:
Парсим сайт http://site.ru/
На http://site.ru/ есть в коде ссылка на фавикон который имеет путь: http://site.ru/templatesz/images/favicon.ico, ссылка на css который имеет путь http://site.ru/includes/inc/default.css и т.д.
Так вот нужно чтобы парсер эти ссылки тоже парсил . Как это можно реализовать?

Forbidden · 9 янв 2014

Использовать Net::HTTP + регулярки
но основная масса путей будет отностильная, т.е. придется потом еще обрабатывать дополнительно

Iura · 9 янв 2014

Forbidden сказал(а): ↑

Использовать Net::HTTP + регулярки
но основная масса путей будет отностильная, т.е. придется потом еще обрабатывать дополнительно
Нажмите, чтобы раскрыть...

С помощью каких регулярок? Может все же подскажите? (скрином) Я как бэ знаю что мне нужно это регулярками отсеять (писал в стартпосте). Насчет относительных путей - они на данный момент меня не интересуют вообще.

Forbidden · 9 янв 2014

Вот банальный пример, но врятли эта регулярка подойдёт под все случаи.

Iura · 9 янв 2014

Спасибо огромное! Работает!
Еще вопрос если можно
А линкэкстрактором такое можно сделать?

Forbidden · 9 янв 2014

HTML::LinkExtractor заточен на сбор активных ссылок(<a href)

Iura · 9 янв 2014

А можно как-то добавить и эту функцию? Я бы доплатил чуток если надо

Forbidden · 9 янв 2014

для неопределенных разовых задач(а эта как раз к ним относиться) существует Net::HTTP + регулярки
если знаний регулярок нету - можешь попробовать оформить точное ТЗ и выложить на форуме с указанием бюджета, я думаю найдутся исполнители

Force68 · 9 янв 2014

Forbidden, подскажите пожалуйста, а как спарсить все изображения с сайта?

Forbidden · 9 янв 2014

Если речь о ссылках на изображения - выдирать их регуляркой, т.е. искать тег <img
Если речь о сохранении на диск - дополнительно воспользоваться Net::HTTP для выкачивания изображений

Iura · 30 июл 2017

Forbidden сказал(а): ↑

Вот банальный пример, но врятли эта регулярка подойдёт под все случаи.
Нажмите, чтобы раскрыть...

Почему-то данный пример перестал работать ((((

Iura · 30 июл 2017

Скажите пожалуйста щас какие настройки надо ввести чтобы собрать абсолютно все ссылки со страницы (включая относительные). В идеале код для импорта, 3 часа играюсь никак не могу получить все ссылки со страницы((

relay · 30 июл 2017

Iura сказал(а): ↑

Скажите пожалуйста щас какие настройки надо ввести чтобы собрать абсолютно все ссылки со страницы (включая относительные). В идеале код для импорта, 3 часа играюсь никак не могу получить все ссылки со страницы((
Нажмите, чтобы раскрыть...

кидай пример страницы, откуда нужно собрать все ссылки

Iura · 30 июл 2017

relay сказал(а): ↑

кидай пример страницы, откуда нужно собрать все ссылки
Нажмите, чтобы раскрыть...

Вот этот для примера https://a-parser.com/forum/

Support Денис · 31 июл 2017

Здравствуйте. Попробуйте так.

eJx1U01v2zAM/S9EgK5AlqCHXnzLigXbkDbtmp3SHoSIzrTIkirSWQoj/32U7NhL
191E8vHx8UMNsKId3UckZIJi3UDIbyhAY6lqyzCGoCJhTOE1fFndLopiYdzu84Gj
2rCPguixDfBrQMn2e4zRaJSg0WKXPlaKhbul3CtbJ9jIOLZCRpMW8OFilMynJ3dx
OcLDf2NwfH4eQ0tH8xxObOFq0unvg49qjyufFBiLg3su1p2qsgatGFP0VOdywofE
oLQ2bLxTtq2QJjBU/eHMS+6BOBq3FbyY0SDNo6/EzZhJkvP1pHANo2yD0NQ5/6HN
gaJUlnAMJHLnSsTotxHDGJWMexmSJvE34N3M2gXu0Q6wzP+pNlbLymalJH3tEt+H
LP/hOPYt/l1K9vk7ioYBpP3Cb6VR56XNHWLoJ3KXPJWP2BN0lTteubeALp3FsJBZ
GFxnAs+Gfu7ceFea7bI7tROydis56qW78VWwmBS72loZOOH3Yfkz6gacjEHg2+Sb
XOLsO7D3lr49tlJDNHJc1/3yxfuTOVAxnaqP7ceZbHw1ldOqq6mcbf+d+k/XvPup
iuYoM/5F9y06qUxY8Um7JFOF4ur4B9ouVII=

kolya757 · 10 апр 2019

Как собрать все внутренние ссылки на сайте?
HTML::LinkExtractor не справляется, задаю уровень парсинга 100, но он собрал только 50% , что еще надо выставить что бы собрал все ссылки?

Support · 10 апр 2019

HTML::LinkExtractor соберет только те ссылки, к которым можно спуститься, начиная с начальной страницы (поданной на вход). Если же какая-то страница лежит отдельно и ссылка на нее не встречается на других, то она никак не попадет в результат.
Как вариант, если сайт проиндексирован поисковиком (например, Гугл), можно попробовать спарсить оттуда все необходимые ссылки, используя поисковые операторы выбранного поисковика и функцию Parse all results либо макросы подстановок.

Парсинг всех ссылок на сайте

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Force68 A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

relay A-Parser Enterprise License
A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

kolya757 A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

Парсинг всех ссылок на сайте

Iura A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Force68 A-Parser Enterprise License A-Parser Enterprise

Forbidden Administrator Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

relay A-Parser Enterprise License A-Parser Enterprise

Iura A-Parser Enterprise License A-Parser Enterprise

Support Денис A-Parser Enterprise License A-Parser Enterprise

kolya757 A-Parser Enterprise License A-Parser Enterprise

Support Administrator Команда форума A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Force68 A-Parser Enterprise License
A-Parser Enterprise

Forbidden Administrator
Команда форума A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

relay A-Parser Enterprise License
A-Parser Enterprise

Iura A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

kolya757 A-Parser Enterprise License
A-Parser Enterprise

Support Administrator
Команда форума A-Parser Enterprise