Нейросеть научили воссоздавать лицо по голосу

Ученые из Массачусетского технологического института в США разработали нейросеть Speech2Face, которая воссоздает примерное изображение лица человека по спектрограмме его речи. Возможности ИИ описаны в издании arXiv.org.
Нейросеть обучена на нескольких миллионах видео, в которых звучит голос пользователей. Каждое из них разделено на аудио- и видеодорожки.
Первая часть алгоритма создает снимок лица человека в анфас исходя из его уникальных особенностей, а вторая — воссоздает спектрограму речи и анализирует анфас человека на оригинальном видео. Нейросеть использует такие демографические показатели, как пол, возраст и раса.
Тестирование показало, что ИИ успешно определяет пол и чаще всего угадывает людей с азиатской и европеоидной внешностью. Определить возраст даже с разницей в 10 лет Speech2Face пока не удается.
Разработчики отмечают, что главное в работе нейросети это не создание точного изображения человека по его голосу, а выделение из него определенных точных параметров.
Дата создания: 28.05.2019 04:56:29