LLM-grounded Video Diffusion Models (LVD)是基于LLM的视频扩散模型,其官方实现是为了支持LVD论文。该模型利用语言-图像联合预训练模型(LLM)来实现视频内容的扩散和生成。通过结合自然语言描述和视觉信息,LVD能够实现对视频内容的理解和创作,具有更好的视觉动态生成能力。该模型在ICLR 2024会议上有相关研究成果,并提供...
LLM-GROUNDED VIDEO DIFFUSION MODELSInstead of directly generating videos from the text inputs, LVD first leverages a large language model (LLM) to generate dynamic scene layouts based on the text in…