Переводчики Google и Bing перемешивают контент

Babloman

A-Parser Pro License
A-Parser Pro
Заметил такую неприятную проблему, как мешап контента.

Т.к. a-parser (к невероятно большому сожалению) не умеет работать с папками, чтобы каждая статья была в отдельном файле и можно было загрузить 10-20-50к статей на перевод, приходится собирать статьи в 1 файл, разделяя их определенным образом, чтобы потом скормить переведенный файл на выходе.

Конечно же, статьи уже ложатся в файл подготовленные, ключевики отдельно перед статьёй, текст статеечки отдельно, тематические абзацы - всё красиво.

Столкнулся со следующей проблемой, что
SE::Bing::Translator
и
SE::Google::Translate
после перевода мешают контент
причем делают это странным образом

В моём случае, представим простую схему
keyword\n
full article text\n
==//==//==

последнее - это разделитель, чтобы потом понять какая статья где

SE::Bing::Translator
По моим наблюдениям, в ~80% случаях кейворд залетает либо под первое предложение, либо в предыдущую статью (а должен идти первым, потом \n и дальше текст статьи).
Предложения тоже мешапятся. Бывает залетает в статью абзац другой статьи.

SE::Google::Translate
По гуглу ситуация не лучше.



Т.е. вместо

keyword1\n
full article text1\n
==//==//==
keyword2\n
full article text2\n
==//==//==
keyword3\n
full article text3\n
==//==//==


получается

keyword1\n
full article text1\n
==//==//==

первое предложение article2
keyword2\n
full article text2\n
часть предложения article3
==//==//==

абзац article3
keyword3\n
full article text3\n
==//==//==


ну вот как-то так. Точнее не отслеживал.
Помимо этого, предложения после перевода также мешаются.
На выходе получается каша.


Настройки парсеров
https://prntscr.com/gjiss1
https://prnt.sc/gjisf7


Если бы апарсер умел работать с папками, было бы чутка проще. В этом случае, хотя бы не залетал нерелевантный текст другой статьи. Кусок какого-то абзаца, например.

Не знаю как это победить. Спасибо.
 
Последнее редактирование:
как и во всех парсерах - здесь 1 запрос - 1 строка, все запросы исполняются в многопоточном режиме и при сохранении порядок не сохраняется
 
как и во всех парсерах - здесь 1 запрос - 1 строка

Привел текст в одну строку регуляркой, думал это будет выходом.
Начал переводить, а на выходе часто часть строки теряется.

Вероятно срабатывает ограничение в переводчике на длину строки (текста).

Хорошо бы, если бы тексты удалось переводить. Но видимо не получиться.
 
@invisible, о каком парсере идет речь? Также дайте текст, на котором часть теряется, мы проверим.
 
@invisible, о каком парсере идет речь? Также дайте текст, на котором часть теряется, мы проверим.

@Support, SE::Yandex::Translate

Исходный текст: istoriya-interneta-vikipediya.txt
Получаемый текст: yandex.txt

использую прокси, от A-parser
fuCNs8FkTji1_uGa54jmMQ.png
 

Вложения

Последнее редактирование:
Назад
Верх