苏剑林的三篇文章说的非常清楚了,第一篇从论文角度直观的过了一遍vae是什么,也说了重参数的技巧。第二篇从贝叶斯的角度推导vae,第三篇目前看的半懂不懂。我觉得这几篇还是值得初学者多看几遍,我每次重新阅读都能找到自己的感悟,最重要的文章里还有keras写的代码,非常容易理解和运行。 今天文章说一下我从代码和...
[3]知乎:https://zhuanlan.zhihu.com/p/249296925 [4]苏剑林. (Jun. 24, 2019). 《VQ-VAE的简明介绍:量子化自编码器 》[Blog post]. Retrieved fromhttps://spaces.ac.cn/archives/6760 [5]知乎:https://zhuanlan.zhihu.com/p/382305612 阅读更多内容请查看“机器翻译学堂” 关于机器翻译学堂 机器翻译学...
[4]苏剑林. (Jun. 24, 2019). 《VQ-VAE的简明介绍:量子化自编码器 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6760 [5]知乎:https://zhuanlan.zhihu.com/p/382305612 hi,这里是小牛翻译~ 想要看到更多我们的文章,可以关注下 机器翻译学堂(公号或网站) 笔芯~ 往期精彩文章...
[4]苏剑林. (Jun. 24, 2019). 《VQ-VAE的简明介绍:量子化自编码器 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6760 [5]知乎:https://zhuanlan.zhihu.com/p/382305612 hi,这里是小牛翻译~ 想要看到更多我们的文章,可以关注下 机器翻译学堂(公号或网站) 笔芯~ 往期精彩文章...
苏剑林大佬博客连接:变分自编码器(一):原来是这么一回事 - 科学空间|Scientific Spaces (kexue.fm) 变分自编码器(二):从贝叶斯观点出发 - 科学空间|Scientific Spaces (kexue.fm) 看完这两篇文章应该会对VAE有更为深刻的认识,苏大佬的博客写的都很精妙,这里也强烈安利一下。
苏剑林的TensorFlow实现。用的生成模型不是PixelCNN而是Transformer。https://github.com/bojone/vae/blob/master/vq_vae_keras.py 实验经历分享 别看VQVAE的代码不难,我做这些实验时还是经历了不少波折的。 一开始,我花一天就把代码写完了,并完成了MNIST上的实验。我觉得在MNIST上做实验的难度太低,不过瘾,就准备...
随着生成模型、多模态LLM的逐渐流行,VQ-VAE及其后续工作也作为“图像的Tokenizer”而“水涨船高”。然而,VQ-VAE的训练本身也存在一些问题,而FSQ这篇论文则声称通过更简单的“四舍五入”就可以达到同样的目的,并且有着效果更好、收敛更快、训练更稳的优点。
然而这里还有一个需要解决的问题是,如何对一张图片的属性进行编码,因为属性既可以描述成离散值的形式也可以描述成概率分布的形式(从概率分布中随机采样出离散值)。比如第一张小男孩图片的smile属性,离散值可以表示为-0.8,概率分布可以表示成-1到0之间的正态分布(然后从中随机采样出离散值,大概率在正态分布最高点的...