1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Регулярка обрабатывается не совсем корректно

Тема в разделе "Делимся опытом", создана пользователем Kreola, 23 дек 2014.

  1. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Приветствую!
    Есть объявление http://www.bezaat.com/ksa/mecca/properties-for-sale/multi-family-home/archive/11219476
    Еще нерабочие: http://www.bezaat.com/tunisia/tunis/business-finance/business-records/ad/11438870
    http://www.bezaat.com/ksa/mecca/travel/external-tourism/ad/9612031
    Там есть строка с городом.
    [​IMG]
    Пишу такую регулярку: <li>.*?المدينة.*?<span>(.*?)<\/span><\/li>
    В http://www.regexr.com/3a4b8 все работает четко, только сам убираю переносы строк.
    В парсере же вижу вот такое:
    <city>1 شهر</span>
    </li>
    <li>
    البلد &nbsp;
    <span>السعودية</city>
    Почему он захватывает лишний <span> не могу понять.
    Таких ошибок немного, но они есть. Хотелось бы их исключить.
    При этом тут http://www.bezaat.com/ksa/mecca/properties-for-sale/hotels/ad/10991164
    Все работает правильно.
    Подскажите как правильнее сделать.
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.340
    Симпатии:
    1.799
    Регулярка обрабатывается совсем корректно, другое дело что она составлена не правильно

    [​IMG]


    Надо составлять более строгие и корректные выражения которые будут вытаскивать нужные результаты а не пол страницы...
     
  3. Kreola

    Kreola Member

    Регистрация:
    23 июн 2013
    Сообщения:
    203
    Симпатии:
    19
    Я веду к тому, что если бы существовало что-то типа переменных, которым можно было бы присваивать некие границы начала и конца, а потом к ней применять регулярное выражение, было бы куда проще. А пытатся написать регулярку для полного кода страницы куда более трудно.
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.340
    Симпатии:
    1.799
    ты можешь одной регуляркой вытаскивать нужную часть страницы, а затем второй регуляркой вытаскивать нужную информацию из предыдущего куска
    тут нет ничего космического, и не надо придумывать какие то непонятные вещи
     
    Kreola нравится это.

Поделиться этой страницей