Заметил такую неприятную проблему, как мешап контента.
Т.к. a-parser (к невероятно большому сожалению) не умеет работать с папками, чтобы каждая статья была в отдельном файле и можно было загрузить 10-20-50к статей на перевод, приходится собирать статьи в 1 файл, разделяя их определенным образом, чтобы потом скормить переведенный файл на выходе.
Конечно же, статьи уже ложатся в файл подготовленные, ключевики отдельно перед статьёй, текст статеечки отдельно, тематические абзацы - всё красиво.
Столкнулся со следующей проблемой, что
SE::Bing::Translator
и
SE::Google::Translate
после перевода мешают контент
причем делают это странным образом
В моём случае, представим простую схему
keyword\n
full article text\n
==//==//==
последнее - это разделитель, чтобы потом понять какая статья где
SE::Bing::Translator
По моим наблюдениям, в ~80% случаях кейворд залетает либо под первое предложение, либо в предыдущую статью (а должен идти первым, потом \n и дальше текст статьи).
Предложения тоже мешапятся. Бывает залетает в статью абзац другой статьи.
SE::Google::Translate
По гуглу ситуация не лучше.
Т.е. вместо
keyword1\n
full article text1\n
==//==//==
keyword2\n
full article text2\n
==//==//==
keyword3\n
full article text3\n
==//==//==
получается
keyword1\n
full article text1\n
==//==//==
первое предложение article2
keyword2\n
full article text2\n
часть предложения article3
==//==//==
абзац article3
keyword3\n
full article text3\n
==//==//==
ну вот как-то так. Точнее не отслеживал.
Помимо этого, предложения после перевода также мешаются.
На выходе получается каша.
Настройки парсеров
https://prntscr.com/gjiss1
https://prnt.sc/gjisf7
Если бы апарсер умел работать с папками, было бы чутка проще. В этом случае, хотя бы не залетал нерелевантный текст другой статьи. Кусок какого-то абзаца, например.
Не знаю как это победить. Спасибо.
Т.к. a-parser (к невероятно большому сожалению) не умеет работать с папками, чтобы каждая статья была в отдельном файле и можно было загрузить 10-20-50к статей на перевод, приходится собирать статьи в 1 файл, разделяя их определенным образом, чтобы потом скормить переведенный файл на выходе.
Конечно же, статьи уже ложатся в файл подготовленные, ключевики отдельно перед статьёй, текст статеечки отдельно, тематические абзацы - всё красиво.
Столкнулся со следующей проблемой, что
SE::Bing::Translator
и
SE::Google::Translate
после перевода мешают контент
причем делают это странным образом
В моём случае, представим простую схему
keyword\n
full article text\n
==//==//==
последнее - это разделитель, чтобы потом понять какая статья где
SE::Bing::Translator
По моим наблюдениям, в ~80% случаях кейворд залетает либо под первое предложение, либо в предыдущую статью (а должен идти первым, потом \n и дальше текст статьи).
Предложения тоже мешапятся. Бывает залетает в статью абзац другой статьи.
SE::Google::Translate
По гуглу ситуация не лучше.
Т.е. вместо
keyword1\n
full article text1\n
==//==//==
keyword2\n
full article text2\n
==//==//==
keyword3\n
full article text3\n
==//==//==
получается
keyword1\n
full article text1\n
==//==//==
первое предложение article2
keyword2\n
full article text2\n
часть предложения article3
==//==//==
абзац article3
keyword3\n
full article text3\n
==//==//==
ну вот как-то так. Точнее не отслеживал.
Помимо этого, предложения после перевода также мешаются.
На выходе получается каша.
Настройки парсеров
https://prntscr.com/gjiss1
https://prnt.sc/gjisf7
Если бы апарсер умел работать с папками, было бы чутка проще. В этом случае, хотя бы не залетал нерелевантный текст другой статьи. Кусок какого-то абзаца, например.
Не знаю как это победить. Спасибо.
Последнее редактирование: