对于反向KL散度来说, q ( x ) q(x) q(x)的分布图像更符合第二行。反向KL散度更在意 p ( x ) p(x) p(x)中的罕见事件,也就是首先要保证 p ( x ) p(x) p(x)低谷附件的 x x x,在 q ( x ) q(x) q(x)中的概率密度值也较小。当 p p p 具有多个峰并且这些峰间隔很宽时,如该图所...
所以:反向KL 会避免 Q 覆盖 P 的“低概率区域”,只管把 Q 集中在 P 的“高概率模式”上。GAN 倾向于使用正向的 JS 散度(或其变体),在某些条件下比反向 KL 更能避免 mode collapse。 VAE 使用的是反向 KL(Q 是推断分布),这也是为什么 vanilla VAE 常常会 mode collapse 或生成模糊图像。
在传统的Kullback-Leibler散度中,KL散度衡量的是两个概率分布之间的平均信息熵差异。但在反向KL散度中,它关注的是从分布B到分布A的信息流动。换句话说,反向KL散度度量的是在将分布B的样本投影到分布A时的信息损失。 为了计算反向KL散度,我们需要考虑两个概率分布B和A,其中B是参考分布,A是我们想要投影到的分布。我...
KL散度用来衡量两个概率分布之间的差异,反向KL散度就是把原始公式里的参考分布和目标分布调换位置。假设我们要让模型生成的分布Q尽量靠近目标分布P,正向KL散度关注的是Q在P高概率区域的表现,反向KL散度则侧重让Q在自身高概率区域与P保持一致。 这种特性让反向KL散度在特定场景下更有优势。当目标分布P存在多模态特征...
今天在读《MiniLLM: Knowledge Distillation of Large Language Models》 文章时,看到了使用Reverse KL Divergence 的思想来做LLM的KD。但是对于反向KL散度比较陌生,于是找到了下面这个有详细介绍机器学习中的各…
KL散度与反向KL散度 https://blog.csdn.net/Forlogen/article/details/89608973
大语言模型蒸馏:使用反向KL散度的优势与局限 随着大语言模型(LLM)的迅速发展,知识蒸馏(Knowledge Distillation, KD)技术成为了提高模型效率的重要手段。近期学术界的研究者们提出,使用反向KL散度(Reverse KL Divergence, RKL)相比传统的正向KL散度(Forward KL Divergence, FKL)在LLM的蒸馏过程中可能更具优势。然而,这...
KL散度(大部分转载) 2019-12-17 08:39 − 首先KL散度是一种距离,就是两个熵相减得到的差值。用基于P的编码去编写来自P或Q的样本。让两者相减,得到基于P的编码的P或Q的样本所产生的信息量,也就是基于同一个条件下,两个分布的差异,差异也就是距离。 熵的定义公式中,log函数不局限于固定的底,不同的底...
然而,正向KL散度和反向KL散度并不是对称的,这意味着它们在学习过程中关注的方面不同。正向KL散度倾向于“均值寻求”(mean-seeking),即在模型输出的多个峰值区域进行优化;而反向KL散度则倾向于“模式寻求”(mode-seeking),专注于某一个高概率区域。 根据新近发布的论文,如《MiniLLM》,研究人员认为,对于复杂的输出...
DeepSeek 不是蒸馏,是AI平权 | DeepSeek最大的模型不是蒸馏出来的,但这个模型依然太大,不适合普通人部署。论文里介绍的是如何用这个大模型蒸馏其他开源小模型,达到人人可部署。这是真正的AI平权,别跟着一些鼠目寸光的政客和商人起哄。简单科普一下蒸馏技术吧,openAI的模型没开...