Google AI представляет Translatotron: сквозную модель перевода речи


Google активно интегрирует искусственный интеллект в свои продукты. Недавно инженеры Google AI представили Translatotron, который является сквозной моделью перевода речи в речь.

Translatotron доказывает, что одна AI-модель из последовательности в последовательность может напрямую переводить речь с одного языка на другой. В своей исследовательской работе команда продемонстрировала новую модель перевода речи и успешно получила высокое качество перевода на двух наборах данных с испанского на английский.

Google AI представляет Translatotron

Если мы пойдем немного глубже, то система преобразования речи в речь обычно состоит из трех компонентов:

  1. Распознавание речи: используется для преобразования исходной речи в текст.
  2. Машинный перевод: используется для перевода преобразованного текста на целевой язык.
  3. Синтез текста в речь (TTS): используется для создания речи на целевом языке из переведенного текста.

Существует много успешных продуктов для преобразования речи в речь, таких как Google Translate. Но не всегда эти 3 функции выполняются одновременно.

Инженеры Google работают над этим проектом почти три года. История началась в 2016 году, когда исследователи продемонстрировали практическую возможность использования единой модели для перевода речи в текст. Это также заставило исследователей осознать необходимость сквозных моделей перевода речи

Позже, в 2017 году, команда Google AI показала, что такие модели могут превзойти обычные каскадные модели. Не только Google, но и в последнее время появилось много других предложений по улучшению сквозных моделей перевода речи в текст.

В отличие от каскадных систем, Translatotron не использует промежуточное текстовое представление ни на одном языке. Он основан на последовательной сети, которая принимает исходные спектрограммы в качестве входных данных, а затем генерирует спектрограммы переведенного текста на целевом языке.

Новая сквозная модель перевода речи работает на двух отдельно обученных компонентах:

  1. Neural vocoder: он преобразует выходные спектрограммы в сигналы во временной области.
  2. Speaker encoder: он поддерживает голос исходного говорящего в синтезированной переведенной речи.

Инженеры Google AI проверили качество перевода Translatotron, измерив балл BLEU (двуязычная оценка), вычисленный по тексту, преобразованному системой распознавания речи. Результаты могут отставать от традиционной каскадной системы, но команде удалось продемонстрировать полезность сквозного прямого преобразования речи в речь.

Translatotron сохраняет исходные вокальные характеристики в переведенной речи, включая сеть кодера динамика, и делает переведенную речь естественной.

Инженеры пришли к выводу, что Translatotron является первой сквозной моделью, которая может напрямую переводить речь с одного языка на речь на другом языке и может сохранять исходный голос в переведенной речи. Они рассматривают это как отправную точку для будущих исследований сквозных систем перевода речи.


0 комментариев
Сортировка:
Добавить комментарий