目录 收起 架构 Patchify DiT Block Model Size Transformer Decoder DiT(Diffusuion Transformer)将扩散模型的 UNet backbone 换成Transformer,并且发现通过增加 Transformer 的深度/宽度或增加输入令牌数量,具有较高 Gflops 的DiT 始终具有较低的 FID(~2.27),这样说明 DiT 是可扩展的(Scalable),网络复杂度(以...
提出首个基于Transformer的Diffusion Model,效果打败SD,并且DiT在图像生成任务上随着Flops增加效果会降低,比较符合scaling law。后续sora的DM也使用该网络架构。 Method 网络结构整体参考LDM,只不过将latent diffusion中的UNet替换为ViT,image与latent space之间编解码复用现成的基于卷积的VAE。DiT网络结构如下图所示,作者尝试...
该研究还在文本和图像数据混合基础上从头开始预训练多个 Transfusion 模型,最多可达到 7B 参数量,并针对各种单模态和跨模态基准建立扩展定律。 论文地址:https://arxiv.org/pdf/2408.11039 论文标题:Transfusion: Predict the Next Token and ...
Transfusion 将语言模型损失函数与扩散相结合,在混合模态序列上训练单个 transformer。 该研究还在文本和图像数据混合基础上从头开始预训练多个 Transfusion 模型,最多可达到 7B 参数量,并针对各种单模态和跨模态基准建立扩展定律。 论文地址:https://arxiv.org/pdf/2408.11039 论文标题:Transfusion: Predict the Next Tok...
We train latent diffusion models, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops...
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 方法:论文一个多模态模型训练的配方Transfusion,可以处理离散数据(如文本或代码)和连续数据(例如图像、音频和视频数据)。Transfusion结合了语言建模损失函数(下一个词预测)和扩散模型,通过单一的transformer来训练混合模态序列,使其能够...
7、DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability 近来,大规模扩散模型在图像生成方面取得了显著结果。另一方面,大规模交叉模态预训练模型(例如CLIP、ALIGN和FILIP)通过学习将视觉和语言嵌入对齐,能够胜任各种下游任务。本文探索联合建模生成和判别的可能性。
TDSTF: Transformer-based Diffusion probabilistic model for Sparse Time series Forecasting(2023) 这篇文章将扩散模型应用到ICU中的关键信号提取。文中的核心一方面是对于稀疏不规则的医疗时序数据的处理,使用value、feature、time三元组表示序列中的每个点,对确实值部分使用mask。另一方面是基于Transformer和扩散模型的预...
7、DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability 近来,大规模扩散模型在图像生成方面取得了显著结果。另一方面,大规模交叉模态预训练模型(例如CLIP、ALIGN和FILIP)通过学习将视觉和语言嵌入对齐,能够胜任各种下游任务。本文探索联合建模生成和判别的可能性。
Model size: 文中应用了 N 个 DiT blocks序列,每个块以隐藏维度大小 d 运行。在 ViT 之后,使用标准的 Transformer 配置来联合缩放 N、d 和注意力头。具体来说,作者使用了四个配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。它们涵盖了广泛的模型大小和触发器分配,从 0.3 到 118.6 Gflops,使其能够衡量评估拓展性能...