Регулярка обрабатывается не совсем корректно

  • Автор темы Автор темы Kreola
  • Дата начала Дата начала

Kreola

Member
Приветствую!
Есть объявление http://www.bezaat.com/ksa/mecca/properties-for-sale/multi-family-home/archive/11219476
Еще нерабочие: http://www.bezaat.com/tunisia/tunis/business-finance/business-records/ad/11438870
http://www.bezaat.com/ksa/mecca/travel/external-tourism/ad/9612031
Там есть строка с городом.
2014_12_23_9_37_53.png

Пишу такую регулярку: <li>.*?المدينة.*?<span>(.*?)<\/span><\/li>
В http://www.regexr.com/3a4b8 все работает четко, только сам убираю переносы строк.
В парсере же вижу вот такое:
<city>1 شهر</span>
</li>
<li>
البلد &nbsp;
<span>السعودية</city>
Почему он захватывает лишний <span> не могу понять.
Таких ошибок немного, но они есть. Хотелось бы их исключить.
При этом тут http://www.bezaat.com/ksa/mecca/properties-for-sale/hotels/ad/10991164
Все работает правильно.
Подскажите как правильнее сделать.
 
Регулярка обрабатывается совсем корректно, другое дело что она составлена не правильно

tekMp.png



Надо составлять более строгие и корректные выражения которые будут вытаскивать нужные результаты а не пол страницы...
 
Я веду к тому, что если бы существовало что-то типа переменных, которым можно было бы присваивать некие границы начала и конца, а потом к ней применять регулярное выражение, было бы куда проще. А пытатся написать регулярку для полного кода страницы куда более трудно.
 
Я веду к тому, что если бы существовало что-то типа переменных, которым можно было бы присваивать некие границы начала и конца, а потом к ней применять регулярное выражение, было бы куда проще. А пытатся написать регулярку для полного кода страницы куда более трудно.

ты можешь одной регуляркой вытаскивать нужную часть страницы, а затем второй регуляркой вытаскивать нужную информацию из предыдущего куска
тут нет ничего космического, и не надо придумывать какие то непонятные вещи
 
Назад
Верх