Нейросеть научили воссоздавать лицо по голосу

Ученые из Массачусетского технологического института в США разработали нейросеть Speech2Face, которая воссоздает примерное изображение лица человека по спектрограмме его речи. Возможности ИИ описаны в издании arXiv.org.

Нейросеть обучена на нескольких миллионах видео, в которых звучит голос пользователей. Каждое из них разделено на аудио- и видеодорожки.

Первая часть алгоритма создает снимок лица человека в анфас исходя из его уникальных особенностей, а вторая — воссоздает спектрограму речи и анализирует анфас человека на оригинальном видео. Нейросеть использует такие демографические показатели, как пол, возраст и раса.

Тестирование показало, что ИИ успешно определяет пол и чаще всего угадывает людей с азиатской и европеоидной внешностью. Определить возраст даже с разницей в 10 лет Speech2Face пока не удается.

Разработчики отмечают, что главное в работе нейросети это не создание точного изображения человека по его голосу, а выделение из него определенных точных параметров.

Дата создания: 28.05.2019 04:56:29

Читать дальше. Ссылка на источник

Пн	Вт	Ср	Чт	Пт	Сб	Вс
26	27	28	29	30	31	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	1	2	3	4	5	6