HTML::TextExtractor + Линки в текстовом блоке

shmell · 7 июл 2018

Подскажите как организовать парсинг HTML::TextExtractor вместе с линками в текстовом блоке, если такое вообще возможно. По маркерам не получится через regexp, все блоки текста абсолютно разные.

Или подскажите как решить:
Задача со страницы взять текстовы блок, вместе с линками в этом блоке, далее перейти по линкам и выполнить ту же операцию.

Т.е. связка с HTML::LinkExtractor, но линки надо брать ext только в пределах текстового блока, который идеально выдирать с помощью HTML::TextExtractor и Min block length.

Буду благодарен за любые подсказки.

Support Денис · 9 июл 2018

Здравствуйте. Решить эту задачу можно разработав JS парсер. С документацией по разработке JavaScript парсеров вы можете ознакомиться по этой ссылке

shmell · 9 июл 2018

А примеры JS парсеров HTML::TextExtractor и HTML::LinkExtractor можно где-то посмотреть? Я не нашел=(

Support Денис · 9 июл 2018

shmell сказал(а): ↑

А примеры JS парсеров HTML::TextExtractor и HTML::LinkExtractor можно где-то посмотреть? Я не нашел=(
Нажмите, чтобы раскрыть...

В этом примере в JS парсере используется несколько встроенных, в том числе и HTML::TextExtractor

shmell · 10 июл 2018

Support Денис сказал(а): ↑

В этом примере в JS парсере используется несколько встроенных, в том числе и HTML::TextExtractor
Нажмите, чтобы раскрыть...

Немного не то, в данной реализии идет же просто подключение готвого HTML::TextExtractor, а хотелось бы увидеть какие методы он выполняет, что бы отсечь чистку ссылок.

Support Денис · 10 июл 2018

shmell сказал(а): ↑

Немного не то, в данной реализии идет же просто подключение готвого HTML::TextExtractor, а хотелось бы увидеть какие методы он выполняет, что бы отсечь чистку ссылок.
Нажмите, чтобы раскрыть...

Исходный код парсера вы не увидите. И не измените его. Вам по сути надо аналог этого парсера написать, c корректировкой для решения вашей задачи.

shmell · 10 июл 2018

Support Денис сказал(а): ↑

Исходный код парсера вы не увидите. И не измените его. Вам по сути надо аналог этого парсера написать, c корректировкой для решения вашей задачи.
Нажмите, чтобы раскрыть...

Получается что так=(

HTML::TextExtractor + Линки в текстовом блоке

shmell A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

shmell A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

shmell A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

shmell A-Parser Enterprise License
A-Parser Enterprise

Поделиться этой страницей

О нас

Быстрая навигация

Twitter

Поддержка

Быстрый поиск

HTML::TextExtractor + Линки в текстовом блоке

shmell A-Parser Enterprise License A-Parser Enterprise

Support Денис A-Parser Enterprise License A-Parser Enterprise

shmell A-Parser Enterprise License A-Parser Enterprise

Support Денис A-Parser Enterprise License A-Parser Enterprise

shmell A-Parser Enterprise License A-Parser Enterprise

Support Денис A-Parser Enterprise License A-Parser Enterprise

shmell A-Parser Enterprise License A-Parser Enterprise

Поделиться этой страницей

Служба поддержки

shmell A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

shmell A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

shmell A-Parser Enterprise License
A-Parser Enterprise

Support Денис A-Parser Enterprise License
A-Parser Enterprise

shmell A-Parser Enterprise License
A-Parser Enterprise