先前的研究表明,通过变分自编码器(VAE)在潜在空间进行建模,扩散和基于流的模型可以显著提高效率和性能。受Sora的启发,开源社区引入了3D-VAE来探索视频生成任务中潜在空间的时空压缩。为了在包括图像和视频在内的多种媒体格式中扩展潜在空间建模的优势,我们采用了一种联合训练的图像-视频VAE(基于CogVideoX),在统一框架...