最近我在思考如何在VAE中加入一些先验信息,以更好地理解相关工作,再次阅读来VQVAE这个工作。同时,这项工作也是Sora和Stable Diffusion工作的基础理论之一。希望我的解读能够帮助您更好地理解这些工作。—— AI …
作为一个自编码器,VQ-VAE的一个明显特征是它的编码向量是离散的,换句话说,它最后得到的编码向量的每个元素都是一个整数,这也就是“Quantised”的含义。 注意,codebook中的向量是连续值,“它的编码向量是离散的”指的是,最终编码向量存放的是codebook中的索引。 PixelCNN 要追溯VQ-VAE的思想,就不得不谈到自回归...
VQ-GAN结合了VQ-VAE与生成对抗网络(GAN)的思想,使用Transformer作为生成器替代VQ-VAE中的PixelCNN,同时加入基于图块的判别器以实现对抗训练。VQ-GAN的loss包含重建损失与GAN损失,旨在平衡图像的重建质量与生成质量。训练过程中,VQ-GAN通过对抗损失引导模型生成更高质量的图像,同时保持与真实图像的相似...
vq-vae模型图,来自《Neural Discrete Representation Learning》 量化的具体的步骤是:原始图像通过CNN之后得到size为(长x宽xd)的三维数据,每个如图中①所示的向量都会经过图中右部的映射过程,映射算法用一句话来说就是“寻找向量空间中离自身最近的e,其中e属于向量表”。映射过程将原向量映射为向量表中的某个向量e,...
最近我在思考如何在VAE中加入一些先验信息,为了更好地理解相关工作,再次阅读了VQ-VAE-2这个工作。同时,这项工作也是Sora和Stable Diffusion工作的基础。希望我的解读能够帮助您更好地理解这些工作。——AI Drea…
VQ-VAE-2: 比肩 BigGAN 的生成模型 详细介绍了 VQ-VAE-1,那么 VQ-VAE-2 就很好解释了。如下图所示,左边是训练过程,分上下两层。上层潜在空间 32x32, 下层潜在空间大小 64 x 64。上层首先进行分层量子化,得到量子化后的字典向量 \mathbf{e}_{\text {top}} \leftarrow \text {Quantize}\left(E_{\tex...