GMM聚类算法(公式证明分析) GMM聚类算法(公式证明分析) 高斯分布 d维多元高斯分布 对d维做极大似然估计: 给定数据似然是 MLE 估计: , 为什么使用高斯分布 如何p(x,y)联合分布是高斯分布,那么p(x)是高斯分布,同样p(y)也是高斯分布。 混合高斯分布 单个高斯分布只有一个mode,单个高斯分布不能模拟多个mode的数据。
1.EM算法 优化目标为对数似然函数 logp(X|Θ)=∑n=1Nlog(∑znp(xn,zn|Θ)) 其中zn是隐变量(例如GMM中样本属于不同component的indicator,或者missing data),N是样本个数,Θ为待优化参数。直接优化上述目标函数往往十分困难,这里我们引入隐变量的分布q(z),此时上式可以写作: ...
这里有混合高斯模型GMM: 图1 利用混合高斯模型将x分为K类 这里我们混合了K个高斯模型,混合后的高斯模型其实相当于贝叶斯定理中的全概公式。 当我们判断x的类别的时候,就要使用后验概率: 在使用后验概率判断x收入z类的概率之前,我们需要先利用样本计算清楚几个变量的取值: 如果样本有标注,那么这些值很好求。 如果...