Делимся регулярками

baaa · 1 Фев 2018

Forbidden сказал(а):
Код:

(\b[A-ZА-Я](?:\w+[,;:]? ){3,}\w{2,}[.!?])

Крашится a-parser, если попадаются мусорные страницы с большим кол-вом текста, пример:

https://sites.google.com/a/q.tapdoa...schwarz-thermostat-massage-wellness---mistral

Как этого избежать?

Support · 2 Фев 2018

Добрый день.
Т.к. на указанном сайте есть очень длинное предложения без пунктуации, то скорее всего это и есть причиной падений.
Как вариант, попробуйте добавить верхнее ограничение по кол-ву слов, например, до 40 слов:

Код:

(\b[A-ZА-Я](?:\w+[,;:]? ){3,40}\w{2,}[.!?])

Dohrenarh · 26 Фев 2018

Какой регуляркой поудалять слова и предложения с кириллицей Блокнотом++?

Support · 3 Апр 2018

Dohrenarh сказал(а):
Какой регуляркой поудалять слова и предложения с кириллицей Блокнотом++?

Как самый простой вариант:

Код:

[а-я]+

shmell · 7 Июл 2018

А как найти первый тег <div(.*?)> перед текстом? Маркер текста есть.
Чет не хочет он у меня искать.

Support Денис · 9 Июл 2018

shmell сказал(а):
А как найти первый тег <div(.*?)> перед текстом? Маркер текста есть.
Чет не хочет он у меня искать.

Здравствуйте. Дайте ссылку на сайт и укажите перед каким текстом искать тег div, указать желательно скриншотом.

Anton · 4 Дек 2018

ребят помогите в регулярках не силён, пробовал в конструкторе и не допонял. как обозначить вложенность тегов в парсинге, допустим есть:

Код:

<h2>
<img src="url.com/1.jpg">
<a href="url.com"/>То что нужно</a>
</h2>

Как мне выпарсить анкор ссылки, указав что именно в h2 собирать?

Заранее спасибо)

Support · 4 Дек 2018

Код:

<h2>.+?<a[^>]+>(.+?)<\/a>\s*<\/h2>

Anton · 6 Дек 2018

Спасибо. Извините а как собирать все совпадения? чёт никак не пойму. собирает только 1 совпдение

Support · 6 Дек 2018

Флаг g.
https://a-parser.com/wiki/regex/#Особенности-использования-в-a-parser-е

Anton · 6 Дек 2018

Ага спасибо, эт понял. в конструкторе всё собирает. Но как дело в проекте доходит) ничё не получается
вот такие настройки https://clip2net.com/s/3Ysct8l

Support · 6 Дек 2018

Для парсинга данных регулярными выражениями лучше использовать Parse custom result (Использовать регулярку).
Если вы собираете данные в массив, то его нужно выводить через .format. Т.е. в данном случае

Код:

$as.format('$a\n')

Детальнее о методе .format: http://a-parser.com/wiki/template-toolkit/#Метод-format-для-массивов
Также рекомендую ознакомиться с такими статьями Документации:
http://a-parser.com/wiki/results-representation/#Массивы-результатов
https://a-parser.com/wiki/result-format/

Anton · 6 Дек 2018

аааа. огромное спасибище))

Zlodeys · 11 Мар 2019

Все привет! Парни, помогите составить такую регулярку.
Имеем:
Мама мыла раму|Чисто чисто|Рама стала чистой папа не мыл раму|
Папа мыл раму|Чисто чисто|Рама стала чистой мама не мыла раму|
Жена мыла раму влажной губкой|Чисто чисто|Рама стала чистой мама и папа не мыли раму|

Нужно сделать проверку на наличие слов ДО первого разделителя |
К примеру нам нужно оставить строки где есть слово папа или влажной, соответственно сработает только на втором и третьем примере.
Искомые слова, могут быть в любом месте предложения (Мыл папа раму, Мыл раму папа и так далее), главное это поиск в предложении был ДО первого символа разделителя |

Support · 11 Мар 2019

Zlodeys сказал(а):
Нужно сделать проверку на наличие слов ДО первого разделителя |

Zlodeys · 11 Мар 2019

Спасибо преогромное!

Dmitron · 9 Дек 2019

Нужно спарсить все value непрочитанных писем от [email protected]

Вот кусок кода в котором фигурирует два непрочитанных письма, одно из которых от [email protected], а другое нам не нужно.

Я использую такую регулярку (попробуйте)
messageline_unread[\S\s]+?value="(.*?)"[\S\s]+?mailer-daemon

Но эта регулярка ищет первый value, а мне нужно самое короткое совпадение.
Помогите пожалуйста найти самое короткое совпадение.

Код:

            <tr id="msg_15758943780799221044_item" class="js-messageline messageline  messageline_unread">
    <td class="messageline__box messageline__box_left">
        <label class="messageline__label" for="msg_15758943780799221044">
            <input type="checkbox" id="msg_15758943780799221044" name="id" value="15758943780799221044" class="js-messageline-checkbox" />
            
        </label>
    </td>
    <td class="messageline__box">
        <a class="messageline__link" href="/message/15758943780799221044">
            <span class="messageline__from">
            
                <img src="https://img.imgsmail.ru/r/m_img/[email protected]" alt="" width="8" height="8" />
            
                Почта Mail.ru
            </span>
            <span class="messageline__subject">
                
                Вход с нового устройства в аккаунт
            </span>
        </a>
    </td>
    <td class="messageline__box messageline__box_right">
        <div class="js-messageline-rightcol messageline__actions">
            
                <a class="messageline__flag icon icon_message-flag js-flag" href="/cgi-bin/movemsg?form_sign=5c986384c7882115d314b703c13129ef&form_token=447966007f034c7a1901510e0105020d0657040b0d0b060400520700005006090354000a080a085557165858435459445e&id=15758943780799221044&mark=1&markmessage=6"></a>
            

            

            <span class="messageline__date">15:26</span>
        </div>
        <a class="js-messageline-scroller messageline__scroller" href="#btoolbar"></a>
    </td>
</tr>



            
            
            <tr id="msg_15752166650211077108_item" class="js-messageline messageline  messageline_unread">
    <td class="messageline__box messageline__box_left">
        <label class="messageline__label" for="msg_15752166650211077108">
            <input type="checkbox" id="msg_15752166650211077108" name="id" value="15752166650211077108" class="js-messageline-checkbox" />
            
        </label>
    </td>
    <td class="messageline__box">
        <a class="messageline__link" href="/message/15752166650211077108">
            <span class="messageline__from">
            
                <img src="https://img.imgsmail.ru/r/m_img/[email protected]" alt="" width="8" height="8" />
            
                [email protected]
            </span>
            <span class="messageline__subject">
                
                Ваше сообщение не доставлено. Mail failure.
            </span>
        </a>
    </td>

Support · 9 Дек 2019

Удобнее это делать несколькими простыми регулярками. Сначала разбиваете на блоки <tr>...</tr>, а потом перебираете в цикле каждый блок, забирая с каждого отправителя, статус и value. Если отправитель и статус соответствуют искомым, то выводите value

jumanji · 11 Фев 2020

если длинный title и многострочный, то регуляркой [\n\r]+ через конструктор результатов title будет в одну строку

Ins1d3-n3t · 27 Май 2020

Всем привет) или я туплю или не понимаю, в общем нужно получать в результате линки вида http:// и https:// , не доменом, я делал как-то через regexp, подскажите кому не сложно, чё-то башка не варит, а надо ...

Делимся регулярками

A-Parser Pro License

Administrator

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Pro License

Administrator

A-Parser Pro License

A-Parser Enterprise License

Administrator

A-Parser Pro License

A-Parser Enterprise License

О нас

Быстрая навигация

Соцсети

Поддержка