Не осилил элементарный парсинг текста.
Требуется по указанным линкам парсить весть текст в один файл.
Это сделать удётся )))
Попутно нужно отфильтровать все мусорные строки.
Оставлять требуется только предложения содержащие, допустим 50 символов.
Допустимые символы, например: латинские буквы, запятая, пробел, двоеточие, кавычка, тире. В конце предложения обязательно точка с пробелом (во избежании не однозначности), знак вопроса, восклицательный знак.
(без учета регистра).
Никаких цифр, собак, копирайтов, звездочек и т.д.
В общем нужен идеально чистый и качественный текст на выходе. Я не могу понять как создать такую регулярку.
Пример от сюда не работает ни в каких интерпритациях: https://a-parser.com/threads/1573/#post-4538
Требуется по указанным линкам парсить весть текст в один файл.
Это сделать удётся )))
Попутно нужно отфильтровать все мусорные строки.
Оставлять требуется только предложения содержащие, допустим 50 символов.
Допустимые символы, например: латинские буквы, запятая, пробел, двоеточие, кавычка, тире. В конце предложения обязательно точка с пробелом (во избежании не однозначности), знак вопроса, восклицательный знак.
(без учета регистра).
Никаких цифр, собак, копирайтов, звездочек и т.д.
В общем нужен идеально чистый и качественный текст на выходе. Я не могу понять как создать такую регулярку.
Пример от сюда не работает ни в каких интерпритациях: https://a-parser.com/threads/1573/#post-4538
Последнее редактирование: