1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг всех ссылок на сайте

Тема в разделе "Делимся опытом", создана пользователем Iura, 8 янв 2014.

  1. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Вобщем задача:
    Скормить парсеру энное кол-во страниц и оттуда выдернуть все ссылки - абсолютно все что начинается на http/https
    Ссылки на картинки, css-ы яваскрипты, фавиконы, внутренние ссылки, внешние ссылки, все пути.
    Пол дня мучался но ничего у меня не вышло т.к. в регулярках я нуб полнейший.
    Можете помочь мне в данном вопросе? Желательно скрином правильной настройки. Я так понимаю там делов на 5 минут но что делать когда ты ничего не понимаешь в этих делах(
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    vadim4uk нравится это.
  3. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Оно к сожалению не хочет извлекать ссылки на фавиконы, яваскрипты, css-ы
    Для примера:
    Парсим сайт http://site.ru/
    На http://site.ru/ есть в коде ссылка на фавикон который имеет путь: http://site.ru/templatesz/images/favicon.ico, ссылка на css который имеет путь http://site.ru/includes/inc/default.css и т.д.
    Так вот нужно чтобы парсер эти ссылки тоже парсил . Как это можно реализовать?
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Использовать Net::HTTP + регулярки
    но основная масса путей будет отностильная, т.е. придется потом еще обрабатывать дополнительно
     
  5. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0

    С помощью каких регулярок? Может все же подскажите? (скрином) Я как бэ знаю что мне нужно это регулярками отсеять (писал в стартпосте). Насчет относительных путей - они на данный момент меня не интересуют вообще.
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    [​IMG]

    Вот банальный пример, но врятли эта регулярка подойдёт под все случаи.
     
    Iura нравится это.
  7. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Спасибо огромное! Работает! :cool:
    Еще вопрос если можно :)
    А линкэкстрактором такое можно сделать?
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    HTML::LinkExtractor заточен на сбор активных ссылок(<a href)
     
  9. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    А можно как-то добавить и эту функцию? Я бы доплатил чуток если надо
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    для неопределенных разовых задач(а эта как раз к ним относиться) существует Net::HTTP + регулярки
    если знаний регулярок нету - можешь попробовать оформить точное ТЗ и выложить на форуме с указанием бюджета, я думаю найдутся исполнители :)
     
  11. Force68

    Force68 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    25 фев 2013
    Сообщения:
    175
    Симпатии:
    49
    Forbidden, подскажите пожалуйста, а как спарсить все изображения с сайта?
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Если речь о ссылках на изображения - выдирать их регуляркой, т.е. искать тег <img
    Если речь о сохранении на диск - дополнительно воспользоваться Net::HTTP для выкачивания изображений
     
  13. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0

    Почему-то данный пример перестал работать :(((((
     
  14. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Скажите пожалуйста щас какие настройки надо ввести чтобы собрать абсолютно все ссылки со страницы (включая относительные). В идеале код для импорта, 3 часа играюсь никак не могу получить все ссылки со страницы((
     
  15. relay

    relay A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    22 июл 2013
    Сообщения:
    156
    Симпатии:
    102
    кидай пример страницы, откуда нужно собрать все ссылки
     
  16. Iura

    Iura A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 ноя 2012
    Сообщения:
    28
    Симпатии:
    0
    Вот этот для примера https://a-parser.com/forum/
     
  17. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте. Попробуйте так.
    eJx1U01v2zAM/S9EgK5AlqCHXnzLigXbkDbtmp3SHoSIzrTIkirSWQoj/32U7NhL
    191E8vHx8UMNsKId3UckZIJi3UDIbyhAY6lqyzCGoCJhTOE1fFndLopiYdzu84Gj
    2rCPguixDfBrQMn2e4zRaJSg0WKXPlaKhbul3CtbJ9jIOLZCRpMW8OFilMynJ3dx
    OcLDf2NwfH4eQ0tH8xxObOFq0unvg49qjyufFBiLg3su1p2qsgatGFP0VOdywofE
    oLQ2bLxTtq2QJjBU/eHMS+6BOBq3FbyY0SDNo6/EzZhJkvP1pHANo2yD0NQ5/6HN
    gaJUlnAMJHLnSsTotxHDGJWMexmSJvE34N3M2gXu0Q6wzP+pNlbLymalJH3tEt+H
    LP/hOPYt/l1K9vk7ioYBpP3Cb6VR56XNHWLoJ3KXPJWP2BN0lTteubeALp3FsJBZ
    GFxnAs+Gfu7ceFea7bI7tROydis56qW78VWwmBS72loZOOH3Yfkz6gacjEHg2+Sb
    XOLsO7D3lr49tlJDNHJc1/3yxfuTOVAxnaqP7ceZbHw1ldOqq6mcbf+d+k/XvPup
    iuYoM/5F9y06qUxY8Um7JFOF4ur4B9ouVII=
     
    #17 Support Денис, 31 июл 2017
    Последнее редактирование: 31 июл 2017
  18. kolya757

    kolya757 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    13 ноя 2014
    Сообщения:
    31
    Симпатии:
    5
    Как собрать все внутренние ссылки на сайте?
    HTML::LinkExtractor не справляется, задаю уровень парсинга 100, но он собрал только 50% , что еще надо выставить что бы собрал все ссылки?
     
  19. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.348
    Симпатии:
    2.097
    HTML::LinkExtractor HTML::LinkExtractor соберет только те ссылки, к которым можно спуститься, начиная с начальной страницы (поданной на вход). Если же какая-то страница лежит отдельно и ссылка на нее не встречается на других, то она никак не попадет в результат.
    Как вариант, если сайт проиндексирован поисковиком (например, Гугл), можно попробовать спарсить оттуда все необходимые ссылки, используя поисковые операторы выбранного поисковика и функцию Parse all results либо макросы подстановок.
     

Поделиться этой страницей