参考论文:[1711.00937] Neural Discrete Representation Learning TL;DR 传统的变量自编码器(VAE) 主要使用连续的潜变量,面对强大的解码器时,常出现后验塌陷的问题,即潜变量被忽略。 VQ-VAE模型 结合了字典学习和表示学习的优势,通过引入向量量化,实现了对离散潜变量的有效建模,解决了传统VAE的后验塌陷问题。 离散表...
vq-vae映射过程 至此,模型将输入图像压缩并离散化为一个二维的整数矩阵。 第二个创新点:层级框架 原始的VQ-VAE的编码是只有一层的,而本文与之不同的一个地方就是引入了层次结构的编码过程。模型的编码分为上下两用于层,下层潜在空间较大,为64×64,该层编码捕获图像的局部信息,如纹理; 下层潜在空间较小,为32...