2 方差贡献率 3 数据重构 4 优缺点 三、参考资料 降维是一种对高维度特征数据预处理方法,目的是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处...
rowvar=0)# 选取最大的k个特征值和特征向量D, V = EigDV(covMat, p)# 得到降维后的数据lowDataMat = dataMat * V# 重构数据reconDataMat = lowDataMat *V.T+ meanValreturnreconDataMatif__name__ =='__main__':
前面 只是一个数,乘上单位向量就变成了一个 方向上的向量。因此,假设降维到q维,则我们需要q个正交的单位向量(对S进行特征分解,取前q个),则变换坐标后 的表达式变为: 样本 的重构代价我们定义为: 上式表示要将 从p维降为q维的重构代价,那么所有样本的重构代价加起来就是总的重构代价: 因此最小重构代价即为...
2 最小重构误差 2.1 原始数据的向量表达 2.2 降维后数据的向量表达 2.3 距离 2.4 明确问题 2.5 求解 3 示例 PCA是一种降维的算法,可以用来解决过拟合问题,其本质思想就是将高维的线性相关的各个特征分量分解为低维线性无关的分量,可以通俗的理解为,原始数据在高维的特征空间中的表达可以近似的以低维空间来表征,...
进一步解释:实际上PCA分为两步:先对特征空间进行重构,再选择前q个成分保留下来,即是降维过程。例如:假设原始空间是p维,通过重构得到u1,u2...up(它们之间线性无关),每一个对应一个特征值λ1,λ2...λp,然后可以去前q个λ1,λ2...λq,这个就是降维了。
3.5 重构 (reconstruction, 根据降维后数据重构原数据), 数据还原 获得降维后的数据, 可以根据降维后的数据还原原始数据。 还原原始数据的过程也就是获得样本点映射以后在原空间中的估计位置的过程, 即计算 X-approx的过程。 使用降维用的降维矩阵 Uk, 然后将 降维后的样本 z 还原回原始特征, 就可以用上图所示的...
重构误差:另一种评估方法是使用保留的主成分来尝试重构原始数据,并计算重构数据与原始数据之间的误差。若重构误差非常小,那么便可认为PCA在保留数据的关键信息方面做得相当出色。特征重要性:最后,我们还可以检查原始特征在主成分中的权重来进一步理解哪些特征对数据的方差贡献最大。若重要的特征在主成分中具有较高的...
于是找到对重构距离影响最小的(P-q)个维度。得证。 4、维度取舍问题的解释 依据就是方差,方差越大的特征,特征中的数据分布的离散程度就越大,特征所包含的信息量也就越大;反之,如果特征中的数据方差比较小,数据特征中包含的数据信息了也比较小;而我们设计模型时就是要求在数据维度一定的同时特征中包含的信息越多...
对于降维,通常使用截断版本的奇异值分解。选择Σ中前k个最大的奇异值。这些列可以从Σ中选择,行可以从V * *中选择。由原矩阵M重构出一个新的矩阵B,公式如下: B = u * Σ,B = V * A 其中Σ只包含原始Σ中奇异值的前k列,V包含原始V中奇异值对应的前k行。
---最小化重构误差 从而达到降维的目的:使用较少的主成分得到较多的信息。 二、图像解释 比如我们想把二维数据降维到一维,那么我们要去找到一条线使得投影后方差最大,如二图中的直线,然后我们把二维的点都投影到这条线上,此时线上的投影点既是我们降维后得到的数据,那么我们该如何实现这个操作?