1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Переводчики Google и Bing перемешивают контент

Тема в разделе "Техническая поддержка", создана пользователем Babloman, 10 сен 2017.

  1. Babloman

    Babloman A-Parser Pro License
    A-Parser Pro

    Регистрация:
    19 июн 2015
    Сообщения:
    11
    Симпатии:
    3
    Заметил такую неприятную проблему, как мешап контента.

    Т.к. a-parser (к невероятно большому сожалению) не умеет работать с папками, чтобы каждая статья была в отдельном файле и можно было загрузить 10-20-50к статей на перевод, приходится собирать статьи в 1 файл, разделяя их определенным образом, чтобы потом скормить переведенный файл на выходе.

    Конечно же, статьи уже ложатся в файл подготовленные, ключевики отдельно перед статьёй, текст статеечки отдельно, тематические абзацы - всё красиво.

    Столкнулся со следующей проблемой, что
    SE::Bing::Translator
    и
    SE::Google::Translate
    после перевода мешают контент
    причем делают это странным образом

    В моём случае, представим простую схему
    keyword\n
    full article text\n
    ==//==//==

    последнее - это разделитель, чтобы потом понять какая статья где

    SE::Bing::Translator
    По моим наблюдениям, в ~80% случаях кейворд залетает либо под первое предложение, либо в предыдущую статью (а должен идти первым, потом \n и дальше текст статьи).
    Предложения тоже мешапятся. Бывает залетает в статью абзац другой статьи.

    SE::Google::Translate
    По гуглу ситуация не лучше.



    Т.е. вместо

    keyword1\n
    full article text1\n
    ==//==//==
    keyword2\n
    full article text2\n
    ==//==//==
    keyword3\n
    full article text3\n
    ==//==//==


    получается

    keyword1\n
    full article text1\n
    ==//==//==

    первое предложение article2
    keyword2\n
    full article text2\n
    часть предложения article3
    ==//==//==

    абзац article3
    keyword3\n
    full article text3\n
    ==//==//==


    ну вот как-то так. Точнее не отслеживал.
    Помимо этого, предложения после перевода также мешаются.
    На выходе получается каша.


    Настройки парсеров
    https://prntscr.com/gjiss1
    https://prnt.sc/gjisf7


    Если бы апарсер умел работать с папками, было бы чутка проще. В этом случае, хотя бы не залетал нерелевантный текст другой статьи. Кусок какого-то абзаца, например.

    Не знаю как это победить. Спасибо.
     
    #1 Babloman, 10 сен 2017
    Последнее редактирование: 11 сен 2017
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    как и во всех парсерах - здесь 1 запрос - 1 строка, все запросы исполняются в многопоточном режиме и при сохранении порядок не сохраняется
     
  3. invisible

    invisible A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 ноя 2017
    Сообщения:
    4
    Симпатии:
    0
    Привел текст в одну строку регуляркой, думал это будет выходом.
    Начал переводить, а на выходе часто часть строки теряется.

    Вероятно срабатывает ограничение в переводчике на длину строки (текста).

    Хорошо бы, если бы тексты удалось переводить. Но видимо не получиться.
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    @invisible, о каком парсере идет речь? Также дайте текст, на котором часть теряется, мы проверим.
     
  5. invisible

    invisible A-Parser Pro License
    A-Parser Pro

    Регистрация:
    1 ноя 2017
    Сообщения:
    4
    Симпатии:
    0
    @Support, SE::Yandex::Translate

    Исходный текст: istoriya-interneta-vikipediya.txt
    Получаемый текст: yandex.txt

    использую прокси, от A-parser
    [​IMG]
     

    Вложения:

    #5 invisible, 13 дек 2017
    Последнее редактирование: 13 дек 2017
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    invisible нравится это.

Поделиться этой страницей