Парсинг контента

seowin555

A-Parser Pro License
A-Parser Pro
Добрый день!
Есть простой пресет по парсингу текста - http://c2n.me/3JYS183
Подскажите регулярку для удаления предложения, если там есть буквы, отличные от русских.
И еще такой вопрос, можно как-то задать максимальный размер контента, который будет парсится?
 
И еще такой вопрос, можно как-то задать максимальный размер контента, который будет парсится?
Как вариант, можно делать так: https://a-parser.com/threads/1573/page-2#post-8902
По регулярке ничего подсказать не могу, разве что вот такое:
Код:
[A-ZА-Я][^.?!]+[a-zA-Z][^.?!]+[.?!]+\s*
Но такая регулярка может не сработать, если предложение к примеру начинается с цифры...
 

Подскажите, а правильно я понял, что в данном случае размер контента будет ограничиваться по кею?
А можно сделать чтобы размер ограничивался по блокам текстам, которые мы парсим?
Т.е. точно также, как работает настройка "Min block length", только в данном случае указываем максимальную длину текстового блока.
 
А можно сделать чтобы размер ограничивался по блокам текстам, которые мы парсим?
Можно (в примере выводится все, что меньше 200 символов):
0cXma.png

Для наглядности здесь выводится длина каждого блока (text.length)
 
Помогите, пожалуйста, найти ошибку в пресете.
Почему-то файлы получаются нулевого размера в результатах.
eyJwcmVzZXQiOiJcdTA0MjJcdTA0MzVcdTA0NDFcdTA0NDIgXHUwNDQyXHUwNDM1
XHUwNDNhXHUwNDQxXHUwNDQyIFx1MDQzMFx1MDQzMVx1MDQzN1x1MDQzMFx1MDQ0
NiIsInZhbHVlIjp7InByZXNldCI6Ilx1MDQyMlx1MDQzNVx1MDQ0MVx1MDQ0MiBc
dTA0NDJcdTA0MzVcdTA0M2FcdTA0NDFcdTA0NDIgXHUwNDMwXHUwNDMxXHUwNDM3
XHUwNDMwXHUwNDQ2IiwicGFyc2VycyI6W1siSFRNTDo6VGV4dEV4dHJhY3RvciIs
ImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5ibG9ja2xlbmd0
aCIsInZhbHVlIjoiMjUwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6InF1ZXJ5
Zm9ybWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9LHsidHlwZSI6ImN1c3RvbVJl
c3VsdCIsInJlc3VsdCI6WyJ0ZXh0cyIsInRleHQiXSwicmVnZXgiOiIoLns1MCx9
KSIsInJlZ2V4VHlwZSI6ImciLCJyZXN1bHRUeXBlIjoiYXJyYXkiLCJhcnJheU5h
bWUiOiJyZXp1bHQiLCJyZXN1bHRzIjpbInRleHQiXX0seyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfSx7InR5cGUiOiJvdmVy
cmlkZSIsImlkIjoiZm9ybWF0cmVzdWx0IiwidmFsdWUiOiIkcmV6dWx0LmZvcm1h
dCgnJHRleHRcXG4nKSJ9XV0sInJlc3VsdHNGb3JtYXQiOiJbJSBGT1JFQUNIIHRl
eHRzOyAgICAgSUYgdGV4dC5sZW5ndGggPCA3MDA7ICAgICAgICB0ZXh0IF8gXCJc
XG5cIjsgICBFTkQ7IEVORCAlXSIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
dWx0c0ZpbGVOYW1lIjoidGV4dHMtdGV4dC8ke3F1ZXJ5LmtleX0udHh0IiwiYWRk
aXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyaWVz
RnJvbSI6ImZpbGUiLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVl
cmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JP
cHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVy
SXRlcmF0b3IiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzT25BbGxMZXZlbHMiOmZhbHNl
fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoi
bm8iLCJrZWVwVW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3Vs
dHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMi
Olt7InNvdXJjZSI6InF1ZXJ5IiwidHlwZSI6InN0cmluZ1NwbGl0Iiwic2VwYXJh
dG9yIjoifCIsInRvIjpbImtleSIsImxpbmsiXX1dLCJyZXN1bHRzQnVpbGRlcnMi
OltdLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6bnVs
bCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFza09u
Q29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInByaW8iOjUs
InF1ZXJpZXNGaWxlIjpbInJlc3VsdHMvd3BzZWQvbGlua2ktdGV4dC9iYW5rcm90
LnR4dCJdfX0=
 
По всей видимости не разобрались.
Вы в задании переопределяете формат результата парсера №1 и общий формат результата. При этом в общем формате результата вы не выводите $p1.preset, поэтому в данном случае переопределение формата результата парсера №1 лишнее и не даст никакого эффекта.
Другими словами, если вы хотите выводить теги <p></p> для каждого блока текста, то добавьте их вывод в общем формате результата. При этом формат результата парсера №1 можно вообще не менять.
 
Другими словами, если вы хотите выводить теги <p></p> для каждого блока текста, то добавьте их вывод в общем формате результата. При этом формат результата парсера №1 можно вообще не менять.

А можете показать пример как это сделать?

Вы в задании переопределяете формат результата парсера №1 и общий формат результата. При этом в общем формате результата вы не выводите $p1.preset, поэтому в данном случае переопределение формата результата парсера №1 лишнее и не даст никакого эффекта.

Насчет этого немного не понял, в общем формате результата я ведь вывожу $p1.preset. Вы наверное посмотрели пресет, а не скрин?
 
Назад
Верх