Нейросеть RawNet от Xiaomi генерирует высокачественную речь

  • 29 апреля, 09:38
  • 3916
  • 0

Исследователи из компании Xiaomi представили end-to-end генератор звука RawNet. Он использует сеть кодера для извлечения характеристик звука и сеть голосовых сигналов (voder) для генерации речи. Эксперименты по задачам Copy-Synthesis показывают, что RawNet достигает качества LPCNet, но при этом имеет более простую архитектуру и быстрее генерирует речь.

Архитектура

Архитектура сети включает в себя сеть кодера, которая извлекает акустические характеристики из необработанного звука, и сеть голосовых сигналов, котораягенерирует звук иходя из акустических характеристик.

Сеть кодера состоит из стака (Max Pooling, Batch Norm, ReLU) свёрточных слоёв, плотных (dense) слоёв и слоёв GRU. Благодаря стэку свёрточных слоёв сеть изучает представления высокого уровня через фильтры нижнего уровня. Расширение сети с помощью GRU и плотного слоя позволяет фиксировать долгосрочные связи (long-term relationship).

Сеть голосовых сигналов имеет структуру аналогичную LPCNet, но с некоторыми изменениями. LPCNet в качестве входных данных принимает текущую прогнозируемую выборку, прогнозируемое возбуждение, глобальные характеристики частоты кадров из сети и линейное прогнозирование текущей выборки. RawNet принимает текущий прогнозируемый образец и акустические характеристики, которые объединяются для передачи в следующие слои.

Эксперименты

Для обучения модели было использовано несколько наборов данных:

  • CMU ARCTIC — содержал 1150 высказываний женщин и мужчин.
  • Mufei — содержал 20 часовой аудиофайл высказываний женщины.
  • LJ-Speech 1.1 — содержал 24 часовой аудиофайл высказываний женщины.

При обучении сети кодера на вход поступали короткие аудиоклипы по 3 200 образцов. На выход выводилось 20 кадров с размером 64. Обучение проходило на 4-х видеокартах NVIDIA P40 с объемом памяти 22 ГБ каждая.


0 комментариев
Сортировка:
Добавить комментарий