Переводчики Google и Bing перемешивают контент

Babloman · 10 Сен 2017

Заметил такую неприятную проблему, как мешап контента.

Т.к. a-parser (к невероятно большому сожалению) не умеет работать с папками, чтобы каждая статья была в отдельном файле и можно было загрузить 10-20-50к статей на перевод, приходится собирать статьи в 1 файл, разделяя их определенным образом, чтобы потом скормить переведенный файл на выходе.

Конечно же, статьи уже ложатся в файл подготовленные, ключевики отдельно перед статьёй, текст статеечки отдельно, тематические абзацы - всё красиво.

Столкнулся со следующей проблемой, что
SE::Bing::Translator
и
SE::Google::Translate
после перевода мешают контент
причем делают это странным образом

В моём случае, представим простую схему
keyword\n
full article text\n
==//==//==

последнее - это разделитель, чтобы потом понять какая статья где

SE::Bing::Translator
По моим наблюдениям, в ~80% случаях кейворд залетает либо под первое предложение, либо в предыдущую статью (а должен идти первым, потом \n и дальше текст статьи).
Предложения тоже мешапятся. Бывает залетает в статью абзац другой статьи.

SE::Google::Translate
По гуглу ситуация не лучше.

Т.е. вместо

keyword1\n
full article text1\n
==//==//==
keyword2\n
full article text2\n
==//==//==
keyword3\n
full article text3\n
==//==//==

получается

keyword1\n
full article text1\n
==//==//==

первое предложение article2
keyword2\n
full article text2\n
часть предложения article3
==//==//==

абзац article3
keyword3\n
full article text3\n
==//==//==

ну вот как-то так. Точнее не отслеживал.
Помимо этого, предложения после перевода также мешаются.
На выходе получается каша.

Настройки парсеров
https://prntscr.com/gjiss1
https://prnt.sc/gjisf7

Если бы апарсер умел работать с папками, было бы чутка проще. В этом случае, хотя бы не залетал нерелевантный текст другой статьи. Кусок какого-то абзаца, например.

Не знаю как это победить. Спасибо.

Forbidden · 11 Сен 2017

как и во всех парсерах - здесь 1 запрос - 1 строка, все запросы исполняются в многопоточном режиме и при сохранении порядок не сохраняется

invisible · 12 Дек 2017

Forbidden сказал(а):
как и во всех парсерах - здесь 1 запрос - 1 строка

Привел текст в одну строку регуляркой, думал это будет выходом.
Начал переводить, а на выходе часто часть строки теряется.

Вероятно срабатывает ограничение в переводчике на длину строки (текста).

Хорошо бы, если бы тексты удалось переводить. Но видимо не получиться.

Support · 13 Дек 2017

@invisible, о каком парсере идет речь? Также дайте текст, на котором часть теряется, мы проверим.

invisible · 13 Дек 2017

Support сказал(а):
@invisible, о каком парсере идет речь? Также дайте текст, на котором часть теряется, мы проверим.

@Support, SE::Yandex::Translate

Исходный текст: istoriya-interneta-vikipediya.txt
Получаемый текст: yandex.txt

использую прокси, от A-parser

Support · 13 Дек 2017

@invisible, создана задача на исправление: https://a-parser.com/threads/4065/

Переводчики Google и Bing перемешивают контент

Babloman

A-Parser Pro License

Forbidden

Administrator

invisible

A-Parser Pro License

Support

Administrator

invisible

A-Parser Pro License

Вложения

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка