文本到视频生成扩散模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,从而实现视频生成的功能。 发布于 2023-07-07 13:54・IP 属地浙江 ...
扩散模型是生成高质量图像和视频的事实标准方法,但由于计算和优化挑战,学习高维模型仍然是一项艰巨的任务。我们提出了Matryoshka扩散模型(MDM),这是一个用于高分辨率图像和视频合成的框架。我们提出了一种扩散过程,联合对多个分辨率的输入进行去噪,并使用了NestedUNet架构,其中小尺度输入的特征和参数嵌套在大尺度输入中。