最近,微软亚洲研究院的研究人员抛出了一个重磅炸弹VASA-1框架,利用视觉情感技巧(VAS,visual affective skills),只需要输入一张肖像照片+一段语音音频,即可生成具有精确唇音同步、逼真面部行为和自然头部运动的超逼真说话面部视频。论文链接:https://arxiv.org/pdf/2404.10667.pdf 项目主页:https://www.micros...
VASA-1的目标是生成逼真的、音频驱动的说话面孔视频。给定任意个体的单一面部图像和任意人的语音音频剪辑,该方法旨在生成一个合成视频,其中输入的面部图像以逼真和连贯的方式说话。生成的视频应具备以下特点: 图像帧的清晰度和真实性 音频和唇部运动之间的精确同步 表情丰富且情感充沛的面部动态 自然的头部姿势 此外,该...
总之,我们的工作提出了 VASA-1,这是一种音频驱动的说话脸部生成模型,该模型因其从单个图像和音频输入中高效生成逼真的唇形同步、生动的面部表情和自然的头部运动而脱颖而出。它在提供视频质量和性能效率方面显着优于现有方法,在生成的面部视频中展示了有前途的视觉情感技能。技术基石是创新的整体面部动态和头部运动生...
微软推出新型AI工具VASA-1:可将照片转化为视频 据媒体报道,微软亚洲研究院近期推出了一款革命性的人工智能工具VASA-1,这一工具的推出引起了业界和公众的广泛关注。 VASA-1的独特之处在于,它能够将静态图像或绘画与音频文件结合,生成具有动态面部表情和头部动作的面孔。这意味着,仅凭一张图片和一段声音,就能创造出...
近日,微软(MSFT.US)公布了VASA-1。官网介绍道:只需使用单张人物肖像照片+一段语音音频,即可实时生成高仿真的数字人讲话视频,唇部动作、面部动作和头部运动都与音频内容同步,其表现高度自然协调。 生成数字人视频 从微软的演示来看,不仅提供具有逼真的面部和头部动态的高质量视频,而且还支持高达40 FPS的在线生成512x...
近日,科技巨头微软再次引领行业创新风潮,发布了全新的VASA-1技术。该技术通过单张图片和音频生成逼真的数字人视频,为虚拟数字人领域带来了前所未有的变革。据了解,VASA-1技术利用面部动态统一编码和Diffusion Transformer技术,实现了精准的唇语同步和自然的表情动作。用户只需提供一张肖像照片和一段音频,VASA-1便能...
VASA-1 的生成方法通过这些步骤实现了高度逼真和生动的虚拟人物说话面孔的生成,同时保持了实时的生成效率。该框架为与模仿人类对话行为的逼真化身进行实时互动铺平了道路。 风险和负责任的AI考虑 VASA 的研究重点是为虚拟 AI 形象生成视觉情感技能,旨在进行积极的应用,它不打算也不应该用于创建误导或欺骗的内容。然而,...
IT之家 4 月 19 日消息,微软亚洲研究院(Microsoft Research Asia)近日发表论文,介绍了全新的 VASA-1 模型,用户只需要提供一张静态肖像图片和一段语音音频片段,该模型就能自动让图片中的人物自动说话。 VASA-1 特别有趣的地方在于,它能够模拟自然的面部表情、各种情绪和唇部同步,最重要的是几乎没有人工痕迹,如果...
日前,微软方面公布了一项全新的AI图生视频框架VASA-1。据了解,VASA-1可以根据一段人类语音音频和单一静态人物图像,生成精确逼真的人物对口型视频。 据悉,VASA-1是由微软亚洲研究院开发、训练数据集为VoxCeleb2,这是一个包含超过100万条名人话语的大型数据集。VASA-1利用了一系列先进的计算机视觉和机器学习技术,包括面...