Заметил такую неприятную проблему, как мешап контента. Т.к. a-parser (к невероятно большому сожалению) не умеет работать с папками, чтобы каждая статья была в отдельном файле и можно было загрузить 10-20-50к статей на перевод, приходится собирать статьи в 1 файл, разделяя их определенным образом, чтобы потом скормить переведенный файл на выходе. Конечно же, статьи уже ложатся в файл подготовленные, ключевики отдельно перед статьёй, текст статеечки отдельно, тематические абзацы - всё красиво. Столкнулся со следующей проблемой, что SE::Bing::Translator и SE::Google::Translate после перевода мешают контент причем делают это странным образом В моём случае, представим простую схему keyword\n full article text\n ==//==//== последнее - это разделитель, чтобы потом понять какая статья где SE::Bing::Translator По моим наблюдениям, в ~80% случаях кейворд залетает либо под первое предложение, либо в предыдущую статью (а должен идти первым, потом \n и дальше текст статьи). Предложения тоже мешапятся. Бывает залетает в статью абзац другой статьи. SE::Google::Translate По гуглу ситуация не лучше. Т.е. вместо keyword1\n full article text1\n ==//==//== keyword2\n full article text2\n ==//==//== keyword3\n full article text3\n ==//==//== получается keyword1\n full article text1\n ==//==//== первое предложение article2 keyword2\n full article text2\n часть предложения article3 ==//==//== абзац article3 keyword3\n full article text3\n ==//==//== ну вот как-то так. Точнее не отслеживал. Помимо этого, предложения после перевода также мешаются. На выходе получается каша. Настройки парсеров https://prntscr.com/gjiss1 https://prnt.sc/gjisf7 Если бы апарсер умел работать с папками, было бы чутка проще. В этом случае, хотя бы не залетал нерелевантный текст другой статьи. Кусок какого-то абзаца, например. Не знаю как это победить. Спасибо.
как и во всех парсерах - здесь 1 запрос - 1 строка, все запросы исполняются в многопоточном режиме и при сохранении порядок не сохраняется
Привел текст в одну строку регуляркой, думал это будет выходом. Начал переводить, а на выходе часто часть строки теряется. Вероятно срабатывает ограничение в переводчике на длину строки (текста). Хорошо бы, если бы тексты удалось переводить. Но видимо не получиться.
@Support, SE::Yandex::Translate Исходный текст: istoriya-interneta-vikipediya.txt Получаемый текст: yandex.txt Спойлер: Настройки использую прокси, от A-parser