微软亚洲研究院发布了 VASA-1 模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前...
VASA框架下的首款模型VASA-1不仅能够产生与音频完美同步的嘴唇动作,还能够捕捉大量面部细微差别和自然的头部动作,有助于感知真实性和生动性。研究人员构建了一个人脸潜空间,并使用现实生活中的人脸视频对人脸编码器和解码器进行训练。在构建人脸潜空间时,他们特别关注了解耦和表现力,以确保解码器能够输...