Добрый день! Есть простой пресет по парсингу текста - http://c2n.me/3JYS183 Подскажите регулярку для удаления предложения, если там есть буквы, отличные от русских. И еще такой вопрос, можно как-то задать максимальный размер контента, который будет парсится?
Как вариант, можно делать так: https://a-parser.com/threads/1573/page-2#post-8902 По регулярке ничего подсказать не могу, разве что вот такое: Код: [A-ZА-Я][^.?!]+[a-zA-Z][^.?!]+[.?!]+\s* Но такая регулярка может не сработать, если предложение к примеру начинается с цифры...
Подскажите, а правильно я понял, что в данном случае размер контента будет ограничиваться по кею? А можно сделать чтобы размер ограничивался по блокам текстам, которые мы парсим? Т.е. точно также, как работает настройка "Min block length", только в данном случае указываем максимальную длину текстового блока.
Можно (в примере выводится все, что меньше 200 символов): Для наглядности здесь выводится длина каждого блока (text.length)
Помогите, пожалуйста, найти ошибку в пресете. Почему-то файлы получаются нулевого размера в результатах. Спойлер: Пресет eyJwcmVzZXQiOiJcdTA0MjJcdTA0MzVcdTA0NDFcdTA0NDIgXHUwNDQyXHUwNDM1 XHUwNDNhXHUwNDQxXHUwNDQyIFx1MDQzMFx1MDQzMVx1MDQzN1x1MDQzMFx1MDQ0 NiIsInZhbHVlIjp7InByZXNldCI6Ilx1MDQyMlx1MDQzNVx1MDQ0MVx1MDQ0MiBc dTA0NDJcdTA0MzVcdTA0M2FcdTA0NDFcdTA0NDIgXHUwNDMwXHUwNDMxXHUwNDM3 XHUwNDMwXHUwNDQ2IiwicGFyc2VycyI6W1siSFRNTDo6VGV4dEV4dHJhY3RvciIs ImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5ibG9ja2xlbmd0 aCIsInZhbHVlIjoiMjUwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5 Zm9ybWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9LHsidHlwZSI6ImN1c3RvbVJl c3VsdCIsInJlc3VsdCI6WyJ0ZXh0cyIsInRleHQiXSwicmVnZXgiOiIoLns1MCx9 KSIsInJlZ2V4VHlwZSI6ImciLCJyZXN1bHRUeXBlIjoiYXJyYXkiLCJhcnJheU5h bWUiOiJyZXp1bHQiLCJyZXN1bHRzIjpbInRleHQiXX0seyJ0eXBlIjoib3ZlcnJp ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJvdmVy cmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkcmV6dWx0LmZvcm1h dCgnJHRleHRcXG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiJbJSBGT1JFQUNIIHRl eHRzOyAgICAgSUYgdGV4dC5sZW5ndGggPCA3MDA7ICAgICAgICB0ZXh0IF8gXCJc XG5cIjsgICBFTkQ7IEVORCAlXSIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz dWx0c0ZpbGVOYW1lIjoidGV4dHMtdGV4dC8ke3F1ZXJ5LmtleX0udHh0IiwiYWRk aXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyaWVz RnJvbSI6ImZpbGUiLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVl cmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JP cHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVy SXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNl fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoi bm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3Vs dHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMi Olt7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InN0cmluZ1NwbGl0Iiwic2VwYXJh dG9yIjoifCIsInRvIjpbImtleSIsImxpbmsiXX1dLCJyZXN1bHRzQnVpbGRlcnMi OltdLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6bnVs bCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFza09u Q29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInByaW8iOjUs InF1ZXJpZXNGaWxlIjpbInJlc3VsdHMvd3BzZWQvbGlua2ktdGV4dC9iYW5rcm90 LnR4dCJdfX0=
С этим разобрался, спасибо! Запутался в результатах. Такой еще момент, а подскажите, почему вот так http://c2n.me/3KdI0yT не работает?
По всей видимости не разобрались. Вы в задании переопределяете формат результата парсера №1 и общий формат результата. При этом в общем формате результата вы не выводите $p1.preset, поэтому в данном случае переопределение формата результата парсера №1 лишнее и не даст никакого эффекта. Другими словами, если вы хотите выводить теги <p></p> для каждого блока текста, то добавьте их вывод в общем формате результата. При этом формат результата парсера №1 можно вообще не менять.
А можете показать пример как это сделать? Насчет этого немного не понял, в общем формате результата я ведь вывожу $p1.preset. Вы наверное посмотрели пресет, а не скрин?
Вы не выводите в общем формате $p1.preset, а пытаетесь перебирать его в цикле. Рекомендую ознакомиться: https://a-parser.com/wiki/template-toolkit/