Google AI представляет Translatotron: сквозную модель перевода речи

20 мая, 07:35
4992
0

Google активно интегрирует искусственный интеллект в свои продукты. Недавно инженеры Google AI представили Translatotron, который является сквозной моделью перевода речи в речь.

Translatotron доказывает, что одна AI-модель из последовательности в последовательность может напрямую переводить речь с одного языка на другой. В своей исследовательской работе команда продемонстрировала новую модель перевода речи и успешно получила высокое качество перевода на двух наборах данных с испанского на английский.

Google AI представляет Translatotron

Если мы пойдем немного глубже, то система преобразования речи в речь обычно состоит из трех компонентов:

Распознавание речи: используется для преобразования исходной речи в текст.
Машинный перевод: используется для перевода преобразованного текста на целевой язык.
Синтез текста в речь (TTS): используется для создания речи на целевом языке из переведенного текста.

Существует много успешных продуктов для преобразования речи в речь, таких как Google Translate. Но не всегда эти 3 функции выполняются одновременно.

Инженеры Google работают над этим проектом почти три года. История началась в 2016 году, когда исследователи продемонстрировали практическую возможность использования единой модели для перевода речи в текст. Это также заставило исследователей осознать необходимость сквозных моделей перевода речи

Позже, в 2017 году, команда Google AI показала, что такие модели могут превзойти обычные каскадные модели. Не только Google, но и в последнее время появилось много других предложений по улучшению сквозных моделей перевода речи в текст.

В отличие от каскадных систем, Translatotron не использует промежуточное текстовое представление ни на одном языке. Он основан на последовательной сети, которая принимает исходные спектрограммы в качестве входных данных, а затем генерирует спектрограммы переведенного текста на целевом языке.

Новая сквозная модель перевода речи работает на двух отдельно обученных компонентах:

Neural vocoder: он преобразует выходные спектрограммы в сигналы во временной области.
Speaker encoder: он поддерживает голос исходного говорящего в синтезированной переведенной речи.

Инженеры Google AI проверили качество перевода Translatotron, измерив балл BLEU (двуязычная оценка), вычисленный по тексту, преобразованному системой распознавания речи. Результаты могут отставать от традиционной каскадной системы, но команде удалось продемонстрировать полезность сквозного прямого преобразования речи в речь.

Translatotron сохраняет исходные вокальные характеристики в переведенной речи, включая сеть кодера динамика, и делает переведенную речь естественной.

Инженеры пришли к выводу, что Translatotron является первой сквозной моделью, которая может напрямую переводить речь с одного языка на речь на другом языке и может сохранять исходный голос в переведенной речи. Они рассматривают это как отправную точку для будущих исследований сквозных систем перевода речи.

Зарегистрируйтесь на Портале

и получите красивый адрес своей странички вида: senior.ua/sergey.ivanov

Проверить доступность:

senior.ua/|

Новости IT компаний
Обсуждения, Форум

Google AI представляет Translatotron: сквозную модель перевода речи

Зарегистрируйтесь на Портале

Похожие материалы

0 комментариев

Добавить комментарий

IT Новости

Справжнє обличчя Telegram. Чому користуватися популярним месенджером небезпечно — аналіз NV

Цифровий бунтар чи хитрий кріт? 10 епічних конфліктів Павла Дурова із західною владою, які й призвели до його затримання

Windows 10 та 11 під загрозою. Останнє оновлення від Microsoft зашкодило багатьом ПК — корпорація запропонувала «ліки»

Дуже зручно. Усі служби Google будуть доступні в одній програмі для Windows

Маск закликав звільнити затриманого у Франції Дурова та запустив відповідний тег

Кінець 39-річної історії. Microsoft позбувається панелі керування в Windows

Шпигун на вашому ПК. Microsoft оголосила дату випуску суперечливої функції, яка запам’ятовує кожну вашу дію

Дрібниця, а приємно. В РФ стався масовий збій — не працюють соцмережі та онлайн-сервіси

Маленька переможна війна. Компанія Ілона Маска гучним позовом знищила організацію за відповідальні медіа

Як ШІ змінює програми ІТ-курсів в Україні: досвід Mate academy, Hillel IT School і не тільки