1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг текста без мусора

Тема в разделе "Делимся опытом", создана пользователем crazypeople, 24 ноя 2019.

  1. crazypeople

    crazypeople A-Parser Pro License
    A-Parser Pro

    Регистрация:
    23 фев 2019
    Сообщения:
    17
    Симпатии:
    0
    Не осилил элементарный парсинг текста.
    Требуется по указанным линкам парсить весть текст в один файл.
    Это сделать удётся )))
    Попутно нужно отфильтровать все мусорные строки.
    Оставлять требуется только предложения содержащие, допустим 50 символов.
    Допустимые символы, например: латинские буквы, запятая, пробел, двоеточие, кавычка, тире. В конце предложения обязательно точка с пробелом (во избежании не однозначности), знак вопроса, восклицательный знак.
    (без учета регистра).
    Никаких цифр, собак, копирайтов, звездочек и т.д.
    В общем нужен идеально чистый и качественный текст на выходе. Я не могу понять как создать такую регулярку.

    Пример от сюда не работает ни в каких интерпритациях: https://a-parser.com/threads/1573/#post-4538
     
    #1 crazypeople, 24 ноя 2019
    Последнее редактирование: 25 ноя 2019

Поделиться этой страницей