Добрый день!
Хочу спарсить статьи с вебархива, урлы постов уже умеются.
Использовался пресет отсюда: https://a-parser.com/threads/1822/
Все вышло, но задавать критерий по количетсву символов мне не подходит, так как текст в постах разного обьема, и не всегда выходит корректный результат.
По этому хочу спарсить все со страницы что между такими тегами:
<div class="postmeta2">
дальше парсить весь текст что идет после тега, вместе с разметкой страницы
<div class="postmeta3">
Вопрос заключается в том как правильно прописать регулярное выражение на парсинг текста между этими тегами?
Или может есть более удачный вариант?
В идеале нужно получить текстовые файлы постов с разметкой для их дальнейшей заливки через зеброид.
Заранее благодарю за ответ!
Хочу спарсить статьи с вебархива, урлы постов уже умеются.
Использовался пресет отсюда: https://a-parser.com/threads/1822/
Все вышло, но задавать критерий по количетсву символов мне не подходит, так как текст в постах разного обьема, и не всегда выходит корректный результат.
По этому хочу спарсить все со страницы что между такими тегами:
<div class="postmeta2">
дальше парсить весь текст что идет после тега, вместе с разметкой страницы
<div class="postmeta3">
Вопрос заключается в том как правильно прописать регулярное выражение на парсинг текста между этими тегами?
Или может есть более удачный вариант?
В идеале нужно получить текстовые файлы постов с разметкой для их дальнейшей заливки через зеброид.
Заранее благодарю за ответ!