Украинская компания Respeecher разработала технологию, которая позволяет заменить голос одного человека голосом другого, даже если того уже нет в живых. Ее можно использовать в кино, и одна из голливудских студий уже заинтересовалась продуктом.
Как появилась идея
До основания Respeecher Александр Сердюк и Дмитрий Белевцов уже были знакомы и работали в одной компании, которая занималась аналитикой данных. На одном из первых хакатонов от Grammarly в Киеве партнеры с коллегами создали прототип своего продукта и победили.
Задачей было создать технологию на абсолютно любую тему, Александр и Дмитрий в то время как раз заинтересовались синтезом голоса. Их первый продукт еще плохо работал, получившийся голос отдавал металлическим эхо, объясняют партнеры. Но тем не менее оба предпринимателя увидели перспективу.
Они решили глубже изучить эту проблему, но на старте не решались уйти с наемной работы и с головой погрузиться в собственный бизнес. Около двух лет команда работала над технологией в свободное время, поэтому первые наработки и близко не напоминали конечный продукт. Система работала, но не очень качественно.
Переломным моментом стало появление в 2016 году понятия Wavenet. По сути, это научная работа работника Google Deep Mind Арона ван ден Орда. Он описал способ, который позволяет генерировать звуковые волны при помощи нейронных сетей без потери качества. Сейчас популярные голосовые помощники, такие как Google Assistant или Amazon Alexa, используют wavenet-модули для улучшения естественности генерируемой речи.
По ходу развития продукта к команде стартапа присоединился еще один партнер – Грант Рибер. До этого он занимался разработкой технологии, которая позволила бы избавиться от акцента.
Самое сложное в разработке
Принцип работы Respeecher сложно понять неподготовленному человеку. Но основатели так объясняют процесс разработки: он похож на исследовательскую работу. Чтобы улучшить продукт, вам сначала нужно выдвинуть гипотезу, затем превратить ее в код и протестировать. Если все получится, то результат оставить, если же нет – убрать. При таком подходе очень сложно проследить за прогрессом, потому что результат не постепенный.
«80% гипотез, а соответственно, и кода приходиться удалять и начинать заново. Поэтому важно, с какими людьми ты все это делаешь. В нашем случае с командой повезло», – говорит Дмитрий.
Зачем это нужно
По словам предпринимателей, клиентами Respeecher могут стать все компании, которые создают контент. Самый простой пример – это индустрия кино. Технология поможет воссоздать голос исторического персонажа при условии, что сохранилась запись его реального голоса.
Вот как это работает. Человек, неважно какой, произносит текст. Затем система воспроизводит эти же слова и интонацию голосом другого конкретного человека. Это напоминает технологию изменения лиц и мимики человека, но касается его речи.
«По сути, мы снимаем с человека ограничение, из-за которого он может говорить только одним голосом», – говорит Александр.
Такая технология может не только оживить голос уже мертвого человека, но и сэкономить киностудиям время и деньги. Дело в том, что после съемок компании часто приглашают актеров на озвучку или переозвучку фильмов. Представьте, что во время монтажа режиссер решил поменять два предложения в тексте героя. Ему придется искать окно в графике актера, ждать, пока он приедет с другого города или страны, просто чтобы записать эти несколько слов. Respeecher решает эту проблему.
Хотя компания существует около года, она уже может похвастать наличием первого большого клиента. По словам основателей, они подписали контракт с одной из крупных голливудских студий. Других деталей в компании не называют, объясняя это условиями сделки.
Еще у компании в разработке есть несколько других проектов, в том числе и украинских. Сейчас в команде Respeecher около десяти человек. Все они работают в Киеве, но сама компания зарегистрирована в США.
Respeecher сейчас проходит Акселерационную программу Techstars (совместно с Comcast / NBCUniversal) и привлекла инвестиции от Techstars/
Это не опасно?
В 2017 году появилось понятие Deepfakes. Это технология, которая при помощи искусственного интеллекта меняет лица так, что подмену сложно заметить невооруженным глазом. Применение Deepfakes пока что остается на весьма безобидном уровне. Например, порноактрисам «пририсовывают» лица знаменитостей или выпускают ролики, где Барак Обама называет Дональда Трампа засранцем. Если присмотреться, то графику можно заметить, но многие боятся, что с развитием технологий люди перестанут отличать правду от дезинформации.
В Respeecher знают об этой проблеме и говорят, что их технологию глупо считать опасной. Во-первых, рано или поздно такой же продукт могли бы придумать и другие компании. Во-вторых, от всех своих клиентов они требуют разрешение на использование того или иного голоса. В-третьих, команда уже работает над технологией, которая сможет различать настоящий голос от поддельного.
Источник: mc.today
0 комментариев
Добавить комментарий