Улучшение Парсер статей zen.yandex.ru

Нужен парсер дзен?

  • Да

    Голосов: 8 100,0%
  • Нет

    Голосов: 0 0,0%

  • Всего проголосовало
    8

agrx

A-Parser Pro License
A-Parser Pro
Есть некоторые каналы, которые вполне можно спарсить себе на сайт и будет очень даже бодро (траф, заработок и вот это всё).

Как я вижу реализацию:
  • На вход подается урл канал(а|ов) типа такого https://zen.yandex.ru/knigajivotih
  • Задается количество последних статей (сверху вниз) для парсинга с каждого канала (если не указано или равно 0 например, то парсить всё)
  • Создается папка с названием канала, подпапки и txt файлы с названием статей
  • Происходит парсинг текста с разметкой для статей типа <H2>, <H3>, <strong> и прочие теги из панели редактирования статей в wordpress
  • Происходит парсинг картинок и сохранение в подпапку с названием статей (с их названием можно не заморачиваться, просто рандомизировав хэшем или типа того, если вдруг будут повторы, либо "nazvanie_stati_1.jpeg" в английском транслите с порядковым номером в конце)
  • Конец (по идее)
Очень предварительное ТЗ я вижу так.

upd: готовая реализация есть в зеннопостере, кнопочки, поля и всё такое можно посмотреть тут https://zennolab.com/discussion/threads/parser-statej-jandeks-dzen.87487/
или вот такая штука https://translated.turbopages.org/p...ky-ru/Yandex-Zen-Parser/blob/master/README.md
 
Последнее редактирование:
Назад
Верх