GameGen-X是首个专门为生成和交互控制开放世界游戏视频而设计的扩散Transformer模型。它具备强大的功能,能够精准模拟游戏引擎特性,从而实现高质量开放世界游戏的生成。无论是创建全新的角色、构建动态多变的环境,还是设计复杂多样的动作以及各类丰富的事件,GameGen-X都能出色完成任务。值得一提的是,就在几天前,专注...
在DiT提出之后,华为诺亚方舟实验室提出了PIXART-α,这也是一种基于transformer的文本到图像扩散模型,它在显著降低训练成本的同时,实现了卓越的图像生成质量,其生成质量与当前最先进生成模型(Imagen、SDXL等)相当。相比于SDv1.5,本文方法在训练数据量上节省了超过98.75%。与RAPHAEL相比,该方法的训练时间仅为1%,训练成本仅...
在图像、视频生成领域,扩散模型已经成为主要范式。但是,在所有视频扩散方法中,主导的骨干网络是由一系列卷积和自注意力层构成的 U-Net 架构。人们之所以偏好 U-Net,是因为 Transformer 中全注意力机制的内存需求会随输入序列长度而二次方增长。在处理视频这样的高维信号时,这样的增长模式会让计算成本变得非常高。...
和一开始的许多扩散模型普遍使用 UNet 架构不同,这些模型使用 transformer 架构作为扩散过程的主模型。由于 transformer 的性质,这些主干网络表现出了良好的可扩展性,模型参数量可从 0.6B 扩展至 8B。随着模型越变越大,内存需求也随之增加。对扩散模型而言,这个问题愈加严重,因为扩散流水线通常由多个模型串成: ...
“U-Net已死,Transformer成为扩散模型新SOTA了!”就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的图像生成模型新论文横空出世,收获一众同行惊讶的声音。△MILA在读ML博士生Ethan Caballero 论文创意性地将Transformer与扩散模型融合,在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM,打破了U-Net统治扩散...
扩散模型大部分是采用UNet架构来进行建模,UNet可以实现输出和输入一样维度,所以天然适合扩散模型。扩散模型使用的UNet除了包含基于残差的卷积模块,同时也往往采用self-attention。自从ViT之后,transformer架构已经大量应用在图像任务上,随着扩散模型的流行,也已经有工作尝试采用transformer架构来对扩散模型建模,这篇文章我们将介...
第一章:扩散模型 在2020 年末,一个名为扩散模型的鲜为人知的模型类别开始在机器学习领域引起轰动。研究人员找出了如何使用这些模型生成比以前技术产生的合成图像质量更高的图像。随后出现了一系列论文,提出了改进和修改,进一步提高了质量。到 2021 年底,出现了像 GLIDE 这样的模型,展示了在文本到图像任务上令人难以置...
该论文提出了一个为多模态设计的概率建模框架 UniDiffuser,并采用该团队提出的基于 transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型,使得一个底层模型能够高质量地完成多种生成任务(图 1)。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生...
DiT,全称Diffusion Transformer,是另外一种扩散模型,只是它基于Transformer架构,算是Transformer在自然语言处理领域获得成功后,在图像视频处理领域的一大延伸。目前openAI的GLIDE、DALLE-2、DALL·E 3 、谷歌的Imagen等就采用了基于Transformer架构的扩散模型。综合以上几点,我们不难看出:Transformer是一种热门架构,而...
该研究专注于一类新的基于 Transformer 的扩散模型:Diffusion Transformers(简称 DiTs)。DiTs 遵循 Vision Transformers (ViTs) 的最佳实践,有一些小但重要的调整。DiT 已被证明比传统的卷积网络(例如 ResNet )具有更有效地扩展性。具体而言,本文研究了 Transformer 在网络复杂度与样本质量方面的扩展行为。研究表明...