23 мая исследователи Массачусетского технологического института в сотрудничестве с командой Google AI представили итоги работы над нейросетью Speech2Face.
Искусственный интеллект может легко узнать любого человека, даже лишь послушав несколько сказанных им фраз. Анализируя особенности речи, нейросеть способна создать фотографию автора сказанных слов.
Алгоритм Named Speech2Face имитирует работу человеческого мозга. Ему «скормили» 100 000 видео из интернета, в которых люди разговаривают. Из такой базы данных нейросеть смогла установить связь между лицом человека и особенностями его голоса и речи.
Эффективность нейросети пока не 100%, хотя и поражает. Алгоритм по голосу распознает маркеры, указывающие на пол, возраст, этническую принадлежность. Из-за этого он не способен создать с голоса фотографию конкрентного человека, у него быстрее получается какое-то среднее лицо. Все фотографии, которые создает Speech2Face, имеют ракус анфас.
Исследователи намерены продолжить работу над проектом и внести в модель ряд коррективов. Например, выборку в дальнейшем планируют пересмотреть и расширить, чтобы разные группы населения были представлены в равной мере – сейчас некоторые национальности реконструируются точнее других за счет численного перевеса. Говоря о будущих планах, авторы подчеркивают, что нейросеть выдает только приблизительное, усредненное изображение и не может идентифицировать человека по голосу.
По их мнению, применение технологии будет уместно в случаях, когда пользователь хочет сохранить умеренную анонимность: например, нейросеть может автоматически генерировать иконки для аккаунтов в голосовых мессенджарах.
0 комментариев
Добавить комментарий