NVIDIA Research 团队推出了一种新的基于稳定扩散的高质量视频合成模型,使其用户能够根据文本提示生成短视频。在 Latent Diffusion Models 的支持下,该模型在压缩的低维潜在空间中进行了训练,从而避免了过多的计算需求,并且能够创建 113 帧长的视频,分辨率为 1280x2048,并以 24 FPS 的速度渲染它们,从而导致 4.7 秒...