实际上,我们最大化ELBO是在交替迭代地做以下两件事情: 第一件事是,估计隐变量分布 p_\theta(z|x) (这是在遵循EM算法的流程)。或者也可以说是在做变分推断,因为我们的手段就是用 p_{\phi}(z|x) 去近似 p_\theta(z|x) 。或者也可以说是在优化编码器,因为我们优化的参数是 \phi 。我为什么能说最...
神奇的事情发生了,由于式(22)的后一项是与自变量ϕ无关的项,因此最小化KL(qϕ(z)||p(z|x))就等价于最大化ELBO,这是非常美妙的结论,因为最大化ELBO恰好也是对θ进行估计时的优化目标。因此,在隐变量模型的学习过程中,变分推断作为一个伴生任务,和极大似然估计的优化目标一起,构成整体的优化目标: (23...
本文从最小化KL散度出发,得出变分推断中的优化目标函数ELBO(Evidence Lower Bound Objective),并讨论对ELBO 的理解。 变分推断的推导 假设我们有观测数据 (observations) DD,关于参数 (parameter) θθ 的先验分布(prior distribution) 为p(θ)p(θ), 根据贝叶斯定理,关于 θθ 的后验分布 (posterior) 为: p(...
贝叶斯变分推断,即优化近似后验Q(Z),使得Q(Z)与P(Z|X)的距离尽可能小,从而以Q(Z)代替P(Z|X...
ELBO是通过将KL散度的表达式分解为两部分得到的,这两部分分别是关于数据的期望值和先验分布的积分。通过观察各部分,发现第三项与期望的对象无关,因此可以将期望符号去掉,得到简化后的ELBO表达式。实际计算中,ELBO以负值形式出现,我们关注的是最大化该值。关于ELBO的计算,其可以表示为一个包含数据证据...
变分下界(如 ELBO)提供了一种通过下界来间接最小化 KL 散度的方法,使得优化过程更加可行。 02 变分下界(证据下界 Evidence Lower Bound, ELBO) 变分下界(Variational Lower Bound)是变分推断中的一个概念。在复杂概率模型中,ELBO 用于近似难以直接计算的量,如互信息或其他后验分布。 2.1 变分下界的含义 在变分...
于是,变分推断引入了近似分布q,目标是找到q,使其最接近但又易于计算的[公式]。KL散度在这里充当了度量工具,使得我们的目标变成最大化[公式],也就是ELBO。ELBO的表达式[公式]直观地告诉我们,最大化ELBO即最小化了KL散度,并且由于KL散度总是非负的,ELBO是数据分布的下界。在实践中,我们通常会...
ELBO = E_{Q(z)}[log P(X|z)] - D_{KL}(Q(z) || P(z))进一步分析,我们发现E_{Q(z)}[log P(X|z)]与z的期望无关,这为我们提供了一个新的视角。此时,ELBO简化为:ELBO = E_{Q(z)}[log P(X|z)] - D_{KL}(Q(z) || P(z))在实际计算中,ELBO的优化形式可以...
具体而言,我们定义了一个参数化分布来近似后验分布,目标是最大化基于这个分布和生成模型的证据下界(ELBO)。ELBO的定义如下:(略去公式)。通过优化ELBO,我们实际上同时优化了生成模型和参数化分布,从而达到训练生成模型的目的。对于特定数据点,我们先用参数化分布采样出多个隐变量,然后基于这些采样...
由于分布太复杂,不知道分布的样子,所以很难直接求得。故而会假设一个分布做初始化,然后一点点逼近。