Алгоритмы машинного обучения позволят пациентам с поврежденным голосовым аппаратом вновь «заговорить» своими голосами

  • 15 ноября, 10:40
  • 4404
  • 0

Сгенерированная на компьютере речь уже сегодня избавляет от немоты пациентов, чей голосовой аппарат оказался поврежден из-за травм или болезней. Проблема в том, что новый голос, как правило, не имеет ничего общего с прежним, также он донельзя «роботизирован», из-за чего пациенты и их близкие могут испытывать дискомфорт. Однако вскоре ситуация изменится.

Как сообщает The Guardian, в США открылся первый в своем роде центр, главная цель которого — сохранить голоса пациентов, чтобы после того, как они потеряют способность говорить, они могли вновь использовать их в повседневной жизни. Его создание стало плодом совместных усилий Северо-Восточного университета в Бостоне и стартапа VocaliD. Отметим, что эта компания известна тем, что создает для людей с проблемами голосового аппарата уникальные голоса, объединяя при помощи технологий машинного обучения те звуки, которые пациенты могут издавать, с максимально похожими на них голосами добровольцев, согласившихся «пожертвовать» свой голос для специального «банка голосов».

Новая инициатива профессора Рупал Патели, основательницы VocaliD, призвана сделать искусственный голос не просто «похожим» на голос пациента, а полностью ему идентичным. В открывшемся при Северо-восточном университете центре люди, которые в будущем могут стать немыми, могут заблаговременно записать свой голос, чтобы впоследствии, когда способность говорить будет утрачена, специалисты стартапа интегрировали его в ПО для синтеза речи.

Патель отмечает, что компания уже позволяет людям записывать свои голоса у себя дома до того, как они лишатся возможности говорить. Вместе с тем, многие клиенты, к сожалению, не располагают подходящим оборудованием, а постоянно перевозить арендуемые установки для звукозаписи слишком затратно. Открытие центра призвано решить эти проблемы и сделать технологию более доступной.

Интересно, что подход, который используется VocaliD, — это не просто нарезка и последующее объединение аудиофрагментов. На первом этапе пациенты записывают собственный голос в течении 2-3 часов. Например, это может быть декламация стихов или рассказов. На основе этих записей разработчики затем тренируют алгоритм машинного обучения, который в результате приобретает способность генерировать речь, сходную с голосом пациента, причем произносить он может любые слова, в том числе те, которые отсутствуют на оригинальной записи. На последнем этапе специалистам остается просто загрузить цифровой голос на смартфон или другое устройство, с помощью которого ИИ будет озвучивать набранные человеком фразы.

По словам Патель, технология быстро совершенствуется. Цифровые голоса все больше напоминают оригинал, и в настоящее время исследователи работают над созданием фильтров для имитации интонирования. Кроме того, они хотели бы, чтобы голоса взрослели и старели вместе с носителем. Пока команда не научилась превращать голос ребенка в голос подростка или взрослого, однако преобразовать его в голос немного подросшего ребенка уже возможно.

Услуга записи голоса бесплатна, однако создание цифрового голоса обойдется в $1499. В течение первого года плату с клиентов взимать не будут. Сохранить свой голос в клинике может любой желающий, но специалисты отдают приоритет тем, кто рискует уже в ближайшее время потерять способность разговаривать.


0 комментариев
Сортировка:
Добавить комментарий

Последние статьи

Смотреть все