在语音数据上,VQ-VAE成功地学习到了与音素类似的离散表示。实验包括: 语音重构:使用VQ-VAE重构语音信号,保持了内容不变,但波形有所不同。 说话人转换:通过改变解码器的说话人ID,实现了语音内容相同但声音不同的效果。 无监督音素学习:模型在完全无监督的情况下,学到了与真实音素高度相关的表示。 3.3 视频生成 ...
vq-vae映射过程 至此,模型将输入图像压缩并离散化为一个二维的整数矩阵。 第二个创新点:层级框架 原始的VQ-VAE的编码是只有一层的,而本文与之不同的一个地方就是引入了层次结构的编码过程。模型的编码分为上下两用于层,下层潜在空间较大,为64×64,该层编码捕获图像的局部信息,如纹理; 下层潜在空间较小,为32...