DiT的作者之一就是华人学者谢赛宁,他们团队提出了一种新型的扩散模型架构,即Diffusion Transformers,简称DiT。他们的目标是尽可能地遵循标准的transformer架构,以便保留扩散模型的可扩展性。DiT继承了许多ViT的设计思想,并且因为作为sora和stable diffusion3的基础技术而受到广泛关注。图1为DiT架构图。 Fig.1 The Diffusion...
在图像、视频生成领域,扩散模型已经成为主要范式。但是,在所有视频扩散方法中,主导的骨干网络是由一系列卷积和自注意力层构成的 U-Net 架构。人们之所以偏好 U-Net,是因为 Transformer 中全注意力机制的内存需求会随输入序列长度而二次方增长。在处理视频这样的高维信号时,这样的增长模式会让计算成本变得非常高。...
如图 1 所示,CLEAR 表现出令人满意的交叉分辨率泛化能力,该特性也反映在基于 UNet 的扩散模型[6]。对于 8K 等超高分辨率生成,将注意力计算减少了 99.5%,将原始 DiT 加速了 6.3 倍,如图 2 所示。蒸馏的局部注意力也与教师模型的不同变体兼容,例如 FLUX.1-dev 和 FLUX.1-schnell,以及各种预训练的插件,如 Con...
随着模型越变越大,内存需求也随之增加。对扩散模型而言,这个问题愈加严重,因为扩散流水线通常由多个模型串成: 文本编码器、扩散主干模型和图像解码器。此外,最新的扩散流水线通常使用多个文本编码器 - 如: Stable Diffusion 3 有 3 个文本编码器。使用 FP16 精度对 SD3 进行推理需要 18.765GB 的 GPU 显存。
这种统一的趋势,使研究人员能够共享不同传统领域的进步,这样就造就了有利于Transformer的模型设计创新和改进的良性循环。然而,有一个例外,就是视频的生成建模。扩散模型已成为图像和视频生成建模的领先范例。然而,由一系列卷积层和自注意力层组成的U-Net架构一直是所有视频扩散方法的主流。这种偏好源于这样一个事实:...
最近在图片生成领域扩散模型(Diffusion Model)可以说是大红大紫,DALLE-2 和 Stable Diffusion 都是基于它进行图片生成的。Diffuser 就将这个方法也运用到了离线强化学习当中,其思路和 TT 类似,先建模序列的条件分布,然后根据当前状态采样未来可能的序列。Diffuser 相比 TT 又拥有了更强的灵活性:它可以在设定起点...
研究人员利用扩散Transformer模型实现实时游戏生成和交互控制,能够根据玩家的输入和游戏状态,实时生成游戏内容,包括场景、角色、任务等,极大地丰富了游戏的可玩性和多样性。与传统的游戏开发模式相比,这种基于人工智能的实时生成技术可以大大缩短游戏开发周期,降低开发成本。以往需要数月甚至数年才能完成的游戏开发工作,...
DiT,全称Diffusion Transformer,是另外一种扩散模型,只是它基于Transformer架构,算是Transformer在自然语言处理领域获得成功后,在图像视频处理领域的一大延伸。目前openAI的GLIDE、DALLE-2、DALL·E 3 、谷歌的Imagen等就采用了基于Transformer架构的扩散模型。综合以上几点,我们不难看出:Transformer是一种热门架构,而...
目前,扩散模型的参数规模通常在billion(十亿)级别,而自回归模型得益于transformer架构,参数具备更大的扩展潜力,图像和视频领域的自回归模型有望借鉴transformer在文本领域LLM的经验,通过对不同模态进行跨模态、规模化的建模,实现“大力出奇迹”。1.2.1 路径对比:扩散模型占据主流,自回归模型潜力可期 从图像生成...
第一章:扩散模型 在2020 年末,一个名为扩散模型的鲜为人知的模型类别开始在机器学习领域引起轰动。研究人员找出了如何使用这些模型生成比以前技术产生的合成图像质量更高的图像。随后出现了一系列论文,提出了改进和修改,进一步提高了质量。到 2021 年底,出现了像 GLIDE 这样的模型,展示了在文本到图像任务上令人难以置...