在这两个基准测试中,该方法在所有评估指标上都取得了所有方法中最好的结果。 在音频嘴唇同步分数(SC和SD)方面,该方法远远优于其他方法,比真实视频产生更好的分数,是由于音频CFG的影响。 从CAPP分数上反映的结果来看,模型生成的姿势与音频的匹配效果更一致,尤其是在OneMin-32基准上。 根据∆P,头部运动也表现出最...
- 微软公开vasa-1,单图仿人说话离线批量处理模式下以45fps生成512x512大小的视频帧,并且在在线流媒体模式下可以支持高达40fps的视频帧,并且之前的延迟仅为170ms。在配备单个NVIDIA RTX4090GPU的台式机上进行测试评估。 生活 日常 小视频 青龙圣者 发消息 ...
给定运动潜码后,VASA使用面部编码器从输入图像中提取的外观和身份特征作为输入,然后生成视频帧。 研究人员首先构建了一个人脸潜空间,并使用现实生活中的人脸视频对人脸编码器和解码器进行训练;然后再训练一个简单的扩散Transformer对运动分布进行建模,针对测试期间...