基于Diffusion的典型可控图片生成模型 zhuanlan.zhihu.com/p/61 (主要关注如何用cross attention的方式注入控制条件) 2.前言 用LLM 提高SD的生成效果,已经是一种常用的做法,主要是利用LLM将图片的描述转成SD的prompt(SD的一些短词的prompt生成效果会好于直白的自然文本)。本文的做法更有意义,直接利用LLM的in context...
LLM-grounded Video Diffusion Models (LVD)是基于LLM的视频扩散模型,其官方实现是为了支持LVD论文。该模型利用语言-图像联合预训练模型(LLM)来实现视频内容的扩散和生成。通过结合自然语言描述和视觉信息,LVD能够实现对视频内容的理解和创作,具有更好的视觉动态生成能力。该模型在ICLR 2024会议上有相关研究成果,并提供...
LLM-GROUNDED VIDEO DIFFUSION MODELSInstead of directly generating videos from the text inputs, LVD first leverages a large language model (LLM) to generate dynamic scene layouts based on the text in…
NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement NAF-DPM:一种用于文档增强的非线性无激活扩散概率模型 摘要:真实世界的文档可能会遭受各种形式的退化,通常会导致光学字符识别 (OCR) 系统的准确性降低。因此,一个关键的预处理步骤对于消除噪音,同时保留文本和文档的关...
https://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformer 加州大学戴维斯分校、弗吉尼亚理工大学和Meta AI的研究团队介绍了Grounded-VideoLLM,这是一个用于视频中细粒度时间定位的模型,采用双流架构进行有效的时间建模,并利用时间标记来高效表示时间戳。