Подскажите как организовать парсинг HTML::TextExtractor вместе с линками в текстовом блоке, если такое вообще возможно. По маркерам не получится через regexp, все блоки текста абсолютно разные. Или подскажите как решить: Задача со страницы взять текстовы блок, вместе с линками в этом блоке, далее перейти по линкам и выполнить ту же операцию. Т.е. связка с HTML::LinkExtractor, но линки надо брать ext только в пределах текстового блока, который идеально выдирать с помощью HTML::TextExtractor и Min block length. Буду благодарен за любые подсказки.
Здравствуйте. Решить эту задачу можно разработав JS парсер. С документацией по разработке JavaScript парсеров вы можете ознакомиться по этой ссылке
А примеры JS парсеров HTML::TextExtractor и HTML::LinkExtractor можно где-то посмотреть? Я не нашел=(
Немного не то, в данной реализии идет же просто подключение готвого HTML::TextExtractor, а хотелось бы увидеть какие методы он выполняет, что бы отсечь чистку ссылок.
Исходный код парсера вы не увидите. И не измените его. Вам по сути надо аналог этого парсера написать, c корректировкой для решения вашей задачи.