1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение HTML::TextExtractor не парсить текст в списках

Тема в разделе "1.0.148", создана пользователем qazwsxedc, 4 окт 2013.

  1. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    99
    Симпатии:
    15
    Добавить возможность указывать между какими хтмл тегами НЕ парсить текст. Или регулярки для исключения определенного блока.

    Ибо попадает таки много мусора, например с чем столкнулся это выпадающий список
    <option value="1" class="ывваыа" >текст</option>

    Уверен что есть еще какие либо лишние теги которых пока не вычислил))
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Дак а по размеру не отфильтровать разве? врятли в списке будут длинные предложения :)
     
  3. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    99
    Симпатии:
    15
    По размеру не получается, все равно цепляет. Он список как за одно предложение считает походу, и если он длинный то...
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Если можно живой пример сюда
     
  5. qazwsxedc

    qazwsxedc A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 ноя 2012
    Сообщения:
    99
    Симпатии:
    15
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    пофиксил
     

Поделиться этой страницей