вообщем есть список урлов и с каждого нужно вытянуть содержимое между <title></title> смотрел и на HTML::TextExtractor и на Net::HTTP но непойму как реализовать такое? подскажите пожалуйста!
как модернизировать, что бы давать только главную страницу для старта, он обходил все страницы сайта, а результат был в виде урл - тайтл и все остальное. только начал осваивать.
Используйте HTML::LinkExtractor, задавая нужную глубину. Остальные Parse result добавляются аналогично.
Как это "не сработала" ?! Наверное из-за присутствия\отсутствия нескольких пробелов перед\после закрывающих тегов\скобок? как же быть? есть софт значительно примитивней для которого это не проблема.
Если на странице точно есть нужные данные, значит регулярка составлена неправильно. Или же на странице просто отсутствуют нужные данные.
а если внутри нужного тега, есть какие-то теги\стили. Как вытянуть чистые данные? например есть itemprop="name" в h1 или в h1 есть <span> а в нем itemprop="name" , как быть в таких ситуациях?
Составить правильную регулярку и/или воспользоваться Remove HTML tags в Конструкторе результатов, чтобы очистить от лишних тегов.