HTML::TextExtractor + Линки в текстовом блоке

  • Автор темы Автор темы shmell
  • Дата начала Дата начала

shmell

A-Parser Enterprise License
A-Parser Enterprise
Подскажите как организовать парсинг HTML::TextExtractor вместе с линками в текстовом блоке, если такое вообще возможно. По маркерам не получится через regexp, все блоки текста абсолютно разные.

Или подскажите как решить:
Задача со страницы взять текстовы блок, вместе с линками в этом блоке, далее перейти по линкам и выполнить ту же операцию.

Т.е. связка с HTML::LinkExtractor, но линки надо брать ext только в пределах текстового блока, который идеально выдирать с помощью HTML::TextExtractor и Min block length.

Буду благодарен за любые подсказки.
 
Здравствуйте. Решить эту задачу можно разработав JS парсер. С документацией по разработке JavaScript парсеров вы можете ознакомиться по этой ссылке
 
А примеры JS парсеров HTML::TextExtractor и HTML::LinkExtractor можно где-то посмотреть? Я не нашел=(
 
В этом примере в JS парсере используется несколько встроенных, в том числе и HTML::TextExtractor HTML::TextExtractor

Немного не то, в данной реализии идет же просто подключение готвого HTML::TextExtractor, а хотелось бы увидеть какие методы он выполняет, что бы отсечь чистку ссылок.
 
Немного не то, в данной реализии идет же просто подключение готвого HTML::TextExtractor, а хотелось бы увидеть какие методы он выполняет, что бы отсечь чистку ссылок.
Исходный код парсера вы не увидите. И не измените его. Вам по сути надо аналог этого парсера написать, c корректировкой для решения вашей задачи.
 
Назад
Верх