1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2200+ и мы растем!
    Скрыть объявление

HTML::TextExtractor + Линки в текстовом блоке

Тема в разделе "Делимся опытом", создана пользователем shmell, 7 июл 2018.

  1. shmell

    shmell A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 май 2015
    Сообщения:
    27
    Симпатии:
    8
    Подскажите как организовать парсинг HTML::TextExtractor вместе с линками в текстовом блоке, если такое вообще возможно. По маркерам не получится через regexp, все блоки текста абсолютно разные.

    Или подскажите как решить:
    Задача со страницы взять текстовы блок, вместе с линками в этом блоке, далее перейти по линкам и выполнить ту же операцию.

    Т.е. связка с HTML::LinkExtractor, но линки надо брать ext только в пределах текстового блока, который идеально выдирать с помощью HTML::TextExtractor и Min block length.

    Буду благодарен за любые подсказки.
     
  2. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    184
    Здравствуйте. Решить эту задачу можно разработав JS парсер. С документацией по разработке JavaScript парсеров вы можете ознакомиться по этой ссылке
     
    shmell нравится это.
  3. shmell

    shmell A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 май 2015
    Сообщения:
    27
    Симпатии:
    8
    А примеры JS парсеров HTML::TextExtractor и HTML::LinkExtractor можно где-то посмотреть? Я не нашел=(
     
  4. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    184
    В этом примере в JS парсере используется несколько встроенных, в том числе и HTML::TextExtractor HTML::TextExtractor
     
  5. shmell

    shmell A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 май 2015
    Сообщения:
    27
    Симпатии:
    8
    Немного не то, в данной реализии идет же просто подключение готвого HTML::TextExtractor, а хотелось бы увидеть какие методы он выполняет, что бы отсечь чистку ссылок.
     
  6. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    184
    Исходный код парсера вы не увидите. И не измените его. Вам по сути надо аналог этого парсера написать, c корректировкой для решения вашей задачи.
     
  7. shmell

    shmell A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 май 2015
    Сообщения:
    27
    Симпатии:
    8
    Получается что так=(
     

Поделиться этой страницей