Нейросеть RawNet от Xiaomi генерирует высокачественную речь

29 апреля, 09:38
4164
0

Исследователи из компании Xiaomi представили end-to-end генератор звука RawNet. Он использует сеть кодера для извлечения характеристик звука и сеть голосовых сигналов (voder) для генерации речи. Эксперименты по задачам Copy-Synthesis показывают, что RawNet достигает качества LPCNet, но при этом имеет более простую архитектуру и быстрее генерирует речь.

Архитектура

Архитектура сети включает в себя сеть кодера, которая извлекает акустические характеристики из необработанного звука, и сеть голосовых сигналов, котораягенерирует звук иходя из акустических характеристик.

Сеть кодера состоит из стака (Max Pooling, Batch Norm, ReLU) свёрточных слоёв, плотных (dense) слоёв и слоёв GRU. Благодаря стэку свёрточных слоёв сеть изучает представления высокого уровня через фильтры нижнего уровня. Расширение сети с помощью GRU и плотного слоя позволяет фиксировать долгосрочные связи (long-term relationship).

Сеть голосовых сигналов имеет структуру аналогичную LPCNet, но с некоторыми изменениями. LPCNet в качестве входных данных принимает текущую прогнозируемую выборку, прогнозируемое возбуждение, глобальные характеристики частоты кадров из сети и линейное прогнозирование текущей выборки. RawNet принимает текущий прогнозируемый образец и акустические характеристики, которые объединяются для передачи в следующие слои.

Эксперименты

Для обучения модели было использовано несколько наборов данных:

CMU ARCTIC — содержал 1150 высказываний женщин и мужчин.
Mufei — содержал 20 часовой аудиофайл высказываний женщины.
LJ-Speech 1.1 — содержал 24 часовой аудиофайл высказываний женщины.

При обучении сети кодера на вход поступали короткие аудиоклипы по 3 200 образцов. На выход выводилось 20 кадров с размером 64. Обучение проходило на 4-х видеокартах NVIDIA P40 с объемом памяти 22 ГБ каждая.

Зарегистрируйтесь на Портале

и получите красивый адрес своей странички вида: senior.ua/sergey.ivanov

Проверить доступность:

senior.ua/|

Новости IT компаний
Обсуждения, Форум

Нейросеть RawNet от Xiaomi генерирует высокачественную речь

Архитектура

Эксперименты

Зарегистрируйтесь на Портале

Похожие материалы

0 комментариев

Добавить комментарий

Последние статьи

Огляд Rabbit R1

Asus вмер для мене

Огляд зарядної док-станції Anker Prime 160W

20 років геймингу та мій HP OMEN 17

Огляд повербанка AOHi The Future Starship

Великі зарядні станції. Що, якщо не Ecoflow?

Огляд чохла для iPad Pro PITAKA MagEZ Folio 2

Ebay refurbished – власний досвід покупки смартфона з США

EPAM, SoftServe, GlobalLogic та інші: хто увійшов до рейтингу 50 найбільших IT-компаній від DOU

ASUS BR – ноутбуки для школярів і студентів