При парсинге текста со страниц типа http://www.softportal.com/software-13554-vksaver.html имеем часто проблему, когда элементы таблиц и/или заголовки парсятся в одну строку. Как мы знаем, в конце заголовков не ставят знаки препинания, также их не ставят в ячейках таблиц. Но в результате имеем "предложения", которые не соответствуют правилам русского языка, например:
Статус программы Операционка Windows 8, 7, Vista, XP Интерфейс
Русский Закачек (сегодня/всего) 77 / 7 105 101 Разработчик Последнее обновление 26.08.2014 ()
Категории программы Отзывы о программе VKSaver
Самый простой путь решения - вывод элементов таблиц и заголовков в отдельные строки.
Я бы предложил создать правила для обработки:
1)элементов таблицы (опции: в одну строку, разбивка по строкам или свой кастомный разделитель)
2)заголовков h1-h9 (всегда переносить на новую строку, ставить точку в конце или сохранять теги <h1></h1>, очистив от свойств в качестве опции)
3)списков <ul> как нумерованых, так и не нумерованых <ol>/<li>. Здесь в качестве опции я бы сохранял теги (при этом очищая от свойств(class/id) и оставляя сухие <ul><li>...</li> ... <li>...</li></ul> ) или удалял их, разбивая элементы списков на отдельные строки. Первый вариант для тех, кто потом эти списки снова вставляет в страницу, а второй для тех, кто использует исключительно текстовку.
Статус программы Операционка Windows 8, 7, Vista, XP Интерфейс
Русский Закачек (сегодня/всего) 77 / 7 105 101 Разработчик Последнее обновление 26.08.2014 ()
Категории программы Отзывы о программе VKSaver
Самый простой путь решения - вывод элементов таблиц и заголовков в отдельные строки.
Я бы предложил создать правила для обработки:
1)элементов таблицы (опции: в одну строку, разбивка по строкам или свой кастомный разделитель)
2)заголовков h1-h9 (всегда переносить на новую строку, ставить точку в конце или сохранять теги <h1></h1>, очистив от свойств в качестве опции)
3)списков <ul> как нумерованых, так и не нумерованых <ol>/<li>. Здесь в качестве опции я бы сохранял теги (при этом очищая от свойств(class/id) и оставляя сухие <ul><li>...</li> ... <li>...</li></ul> ) или удалял их, разбивая элементы списков на отдельные строки. Первый вариант для тех, кто потом эти списки снова вставляет в страницу, а второй для тех, кто использует исключительно текстовку.