^Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." *Proceedings of the IEEE/CVF conference on computer vision and pattern recognition*. 2022. ^Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." *Advances in Neural Informat...
相对于 DDIM, DDPM 以及 SDE,High-Resolution Image Synthesis with Latent Diffusion Models 一文重点在于 latent Space 和 Conditioning Cross Attention,而非 diffusion pipeline 流程。 以此不同于前几份笔记,本文主要参考 huggingface/diffusers 中Latent Diffusion Model 及 Stable Diffusion 的实现,对 LDM 架构及其中...
a) 后续做diffusion的计算量更小,特别是对于diffusion这种需要多步迭代的操作。 b) latent空间的特征语义信息更强,便于和其它模态(例如,文本或者初始图像)的特征融合。 另外,类似于VAE,为了避免AE压缩出的latent space过于发散(high variance),通常会把latent space的特征分布用KL散度对齐到标准正态空间。 LDM(latent...
避免潜在空间具有任意的高方差,采用了2种不同的正则化: KL正则化:对学习到的潜在表示施加轻微的 KL 惩罚,使其趋向于标准正态分布(类似VAE) VQ正则化:在解码器中使用向量量化层 3.2:Latent Diffusion Models Diffusion Models 扩散模型:通过逐步对正态分布变量去噪,学习数据分布 p(x),对应学习固定长度为 T 的马...
二.隐式扩散模型 Latent Diffusion Models 与DDPM的过程类似,前向与反向扩散都是在潜空间里完成的,只不过Zt是Latent Feature,Z0是AE的Encoder推理出的原始特征,ZT是纯噪声特征。所以在训练时,不再是生成一张噪点图,而是在潜空间里生成一个随机张量(Tensor),并且在给图片每一步增加噪点时,也不再是给图像增加噪点...
Video Variational Autoencoder (VAE) encodes videos into a low-dimensional latent space, becoming a key component of most Latent Video Diffusion Models (LVDMs) to reduce model training costs. However, as the resolution and duration of generated videos increase, the encoding cost of Video VAEs ...
LDM3D is a state-of-the-art diffusion model with 1.6 billion parameters, derived from Stable Diffusion v1.4 but tailored to generate images and depth maps concurrently from textual input. It employs a variational autoencoder (VAE) architecture with KL divergence loss, modified for ef...
变分自动编码器(Variational autoencoders,VAE)[46]和基于流的模型[18,19]能够高效合成高分辨率图像[9,44,92],但样本质量与GAN不一样。虽然自回归模型(autoregressive models,ARM)[6、10、94、95]在密度估计方面取得了很好的性能,但计算量大的体系结构[97]和顺序采样过程将其限制在低分辨率图像上。由于基于像素...
Latent Diffusion Model (LDM) •感知图像压缩(Perceptual Image Compression):最左侧红框部分是一个VQ-VAE,用于将输入图像 x 编码为一个离散特征 z 。 •LDM:图中间绿色部分是在潜变量空间的扩散模型,其中上半部分是加噪过程,用于将特征 加噪为〖 z〗_T 。下半部分是去噪过程,去噪的核心结构是一个由交叉...
Pre title: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis accepted: arXiv 2023 paper: https://arxiv.org/abs/2307.01952 co