1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Как спарсить title?

Тема в разделе "Техническая поддержка", создана пользователем BlackAlex, 23 июл 2014.

  1. BlackAlex

    BlackAlex A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    30 янв 2013
    Сообщения:
    27
    Симпатии:
    23
    вообщем есть список урлов и с каждого нужно вытянуть содержимое между
    <title></title>

    смотрел и на HTML::TextExtractor и на Net::HTTP но непойму как реализовать такое?
    подскажите пожалуйста!
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
  3. fest1val

    fest1val A-Parser Pro License
    A-Parser Pro

    Регистрация:
    31 окт 2015
    Сообщения:
    14
    Симпатии:
    2
    как модернизировать, что бы давать только главную страницу для старта, он обходил все страницы сайта, а результат был в виде
    урл - тайтл и все остальное. только начал осваивать.
    [​IMG]
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Используйте HTML::LinkExtractor HTML::LinkExtractor, задавая нужную глубину.
    [​IMG]
    Остальные Parse result добавляются аналогично.
     
    EceninPars и Forbidden нравится это.
  5. fest1val

    fest1val A-Parser Pro License
    A-Parser Pro

    Регистрация:
    31 окт 2015
    Сообщения:
    14
    Симпатии:
    2
    Вопрос, а откуда берутся данные "none"?
    [​IMG]
     
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Если регулярка не сработала на странице, то выводится none.
     
  7. fest1val

    fest1val A-Parser Pro License
    A-Parser Pro

    Регистрация:
    31 окт 2015
    Сообщения:
    14
    Симпатии:
    2
    Как это "не сработала" ?! Наверное из-за присутствия\отсутствия нескольких пробелов перед\после закрывающих тегов\скобок?
    как же быть?
    есть софт значительно примитивней для которого это не проблема.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Если на странице точно есть нужные данные, значит регулярка составлена неправильно. Или же на странице просто отсутствуют нужные данные.
     
  9. fest1val

    fest1val A-Parser Pro License
    A-Parser Pro

    Регистрация:
    31 окт 2015
    Сообщения:
    14
    Симпатии:
    2
    а если внутри нужного тега, есть какие-то теги\стили. Как вытянуть чистые данные?
    например есть itemprop="name" в h1 или в h1 есть <span> а в нем itemprop="name" , как быть в таких ситуациях?
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Составить правильную регулярку и/или воспользоваться Remove HTML tags в Конструкторе результатов, чтобы очистить от лишних тегов.
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Регулярка которая игнорирует атрибуты, флаг i:
    Код:
    <h1[^>]*>(.*?)</h1>
     
    Vvtex, Владислав и Support нравится это.

Поделиться этой страницей