Google Translate научился переводить речь звуком говорящего

Пока эффективность не выше, чем у своевременной каскадной модели, однако в Google удовлетворены уже самим фактов доказанной возможности «прямого перевода», исключая фазу расшифровки речи в текст. При всем этом новая система удерживает интонации, паузы и иные особенности речи. Об этом говорится в блоге компании.

Как это удалось сделать.

В Google отмечают, что нынешние технологии по переводу устной речи обычно состоят из 3-х этапов: распознавание текста → перевод текста → синтез текста в голос. Так как прямая интерпретация речи лишена промежуточных этапов, она работает скорее, уменьшает ошибки интерпретации, которые могут появиться во время преображения, и может даже игнорировать слова, которые не нужно переводить. На заключительном этапе применяется система синтеза речи, превращающая переведенный текст в аудиозапись.

Подразделение искусственного интеллекта Google разработало технологию Translatotron, которая переводит устную речь с одного языка на другой, сохраняя при всем этом тембр голоса и манеру говорящего.

На данной основе после будет генерироваться новая спектрограмма на целевом языке.

«Хотя наши результаты отстают от обыкновенной каскадной системы, мы показали возможность сквозного прямого преображения речи в речь», — сообщается на сайте Google. Она анализирует спектограмму источника речи и генерирует ее на нужном языке. Создатели Translatotron решили использовать в качестве входных данных для перевода спектрограммы (изображения, показывающие зависимость спектральной плотности мощности сигнала от времени) речи источника и генерировать на их основе новые спектрограммы на языке перевода.

Разработка использует систему, обрабатывающую голос пользователя как спектрограмму.

Translatotron может переводить звуковую речь на многих языках. Еще одним существенным моментом будет то, что такой подход дает возможность сохранить приметы и интонацию исходного голоса. Благодаря этому, пользоваться данным переводчиком будет в разы скорее и легче. Данная работа должна стать отправной точкой для будущих систем перевода речи.

Новый голосовой переводчик Google сохраняет интонацию и голос исходного языка


Новости за сегодня:


Обсуждение по теме: