Парсинг предложений по критериям

poiskspider

A-Parser Pro License
A-Parser Pro
Думал, но так и не придумал, как это реализовать.
Есть предварительно собранный список урлов.
С него нужно получить информацию по заданным критериям:

1) Парсить предложения не более 140 символов в предложении

2) Надо что бы в этом предложении находилось определенное слово или словосочетание из предложенных ключевиков.

3) Сохранять найденное в один файл, но каждое спарсенное предложение с новой строки.


Если можно, сие чудо получить кодом пресета… Заранее благодарен за помощь
 
kTffG.png

Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJvdmVycmlkZSIsImlkIjoibWluYmxvY2tsZW5ndGgiLCJ2YWx1ZSI6IjEw
In0seyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0IjpbInRleHRzIiwidGV4dCJdLCJm
aWx0ZXJUeXBlIjoicmVtYXRjaCIsInZhbHVlIjoiXHUwNDNmXHUwNDMwXHUwNDQw
XHUwNDQxXHUwNDM1XHUwNDQwfHBhcnNlcnxcdTA0M2FcdTA0M2JcdTA0NGVcdTA0
NDciLCJvcHRpb24iOiJpIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6ImZvcm1h
dHJlc3VsdCIsInZhbHVlIjoiWyUgbGVuID0gMTQwO1xuRk9SRUFDSCB0ZXh0cyBJ
TiB0ZXh0cztcblx0SUYgdGV4dHMudGV4dC5sZW5ndGggPCBsZW47XG4gICAgXHR0
ZXh0cy50ZXh0IF9cIlxcblwiO1xuICAgIEVORDtcbkVORCAlXSJ9XV0sInJlc3Vs
dHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJy
ZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCkudHh0IiwiYWRkaXRp
b25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJxdWVyeUZvcm1h
dCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRR
dWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxsTGV2ZWxzIjpm
YWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNlfSwicmVzdWx0
c09wdGlvbnMiOnsib3ZlcndyaXRlIjpmYWxzZX0sImRvTG9nIjoibm8iLCJrZWVw
VW5pcXVlIjoiTm8iLCJtb3JlT3B0aW9ucyI6ZmFsc2UsInJlc3VsdHNQcmVwZW5k
IjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1ZXJ5QnVpbGRlcnMiOltdLCJyZXN1
bHRzQnVpbGRlcnMiOltdLCJjb25maWdPdmVycmlkZXMiOltdfX0=
  • Min block length - минимальная длина предложения
  • В фильтре через символ | перечисляем ключи, которые должны быть в предложении
  • В Result format переменная len - максимальная длина предложения
 
Прелестно!
Общая тенденция правильная, но почему в файле результата попадаются предложения, которые не содержат ключевые слова. У вас на скрине примера они так же видны (Главная, Демо, Форум). Как это отфильтровать, что бы чистые шли предложения, строго по заданию?
 
Потому что
Главная
Демо
Купить A-Parser
Парсеры
Форум
это один текстовый блок, в котором слова разделены переводом строки. И этот текстовый блок подходит под фильтр. Для наглядности вот скрин с разделением текстовых блоков:
mUMyM.png
Перевод строки можно убрать, заменив Конструктором результатов \n на пробел.

Или же отфильтровывать все те блоки, что содержат в себе перевод строки:
zVDD3.png
 
Назад
Верх