Делимся регулярками

Тема в разделе "Делимся опытом", создана пользователем 7make, 30 май 2013.

  1. baaa

    baaa A-Parser Pro License
    A-Parser Pro

    Регистрация:
    19 июн 2013
    Сообщения:
    3
    Симпатии:
    0
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.160
    Симпатии:
    1.473
    Добрый день.
    Т.к. на указанном сайте есть очень длинное предложения без пунктуации, то скорее всего это и есть причиной падений.
    Как вариант, попробуйте добавить верхнее ограничение по кол-ву слов, например, до 40 слов:
    Код:
    (\b[A-ZА-Я](?:\w+[,;:]? ){3,40}\w{2,}[.!?])
     
  3. Dohrenarh

    Dohrenarh A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 окт 2016
    Сообщения:
    13
    Симпатии:
    0
    Какой регуляркой поудалять слова и предложения с кириллицей Блокнотом++?
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.160
    Симпатии:
    1.473
    Как самый простой вариант:
    Код:
    [а-я]+
     
  5. shmell

    shmell A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 май 2015
    Сообщения:
    14
    Симпатии:
    4
    А как найти первый тег <div(.*?)> перед текстом? Маркер текста есть.
    Чет не хочет он у меня искать.
     
  6. Support Денис

    Support Денис A-Parser Enterprise License
    Команда форума A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    456
    Симпатии:
    124
    Здравствуйте. Дайте ссылку на сайт и укажите перед каким текстом искать тег div, указать желательно скриншотом.
     
  7. Anton

    Anton A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 фев 2014
    Сообщения:
    8
    Симпатии:
    2
    ребят помогите в регулярках не силён, пробовал в конструкторе и не допонял. как обозначить вложенность тегов в парсинге, допустим есть:
    Код:
    <h2>
    <img src="url.com/1.jpg">
    <a href="url.com"/>То что нужно</a>
    </h2>
    Как мне выпарсить анкор ссылки, указав что именно в h2 собирать?

    Заранее спасибо)
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.160
    Симпатии:
    1.473
    Код:
    <h2>.+?<a[^>]+>(.+?)<\/a>\s*<\/h2>
    [​IMG]
     
    Anton нравится это.
  9. Anton

    Anton A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 фев 2014
    Сообщения:
    8
    Симпатии:
    2
    Спасибо. Извините а как собирать все совпадения? чёт никак не пойму. собирает только 1 совпдение
     
  10. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.160
    Симпатии:
    1.473
  11. Anton

    Anton A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 фев 2014
    Сообщения:
    8
    Симпатии:
    2
    Ага спасибо, эт понял. в конструкторе всё собирает. Но как дело в проекте доходит) ничё не получается
    вот такие настройки https://clip2net.com/s/3Ysct8l
     
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.160
    Симпатии:
    1.473
    Для парсинга данных регулярными выражениями лучше использовать Parse custom result (Использовать регулярку).
    Если вы собираете данные в массив, то его нужно выводить через .format. Т.е. в данном случае
    Код:
    $as.format('$a\n')
    Детальнее о методе .format: http://a-parser.com/wiki/template-toolkit/#Метод-format-для-массивов
    Также рекомендую ознакомиться с такими статьями Документации:
    http://a-parser.com/wiki/results-representation/#Массивы-результатов
    https://a-parser.com/wiki/result-format/
     
  13. Anton

    Anton A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 фев 2014
    Сообщения:
    8
    Симпатии:
    2
    аааа. огромное спасибище))
     
    Forbidden и Support нравится это.

Поделиться этой страницей