或者某点坐标能够由临近的节点线性组合算出(LLE),从而可以获得高维空间的一种关系,而这种关系能够在低维空间中保留下来,从而基于这种关系表示来进行降维,因此流形学习可以用来压缩数据、可视化、获取有效的距离矩阵
举例:我们用sklearn库中的鸢尾花数据集来做降维分析,数据集共有数据150组,每组包括花萼长(sepal lenth)、花萼宽(sepal width)、花瓣长(petal length)、花瓣宽(petal width)4个输入特征,同时给出了这一组特征对应的鸢尾花类别,类别包括Setosa Iris(狗尾花鸢尾),Versicolour Iris(杂色鸢尾),Virgincica Iris(弗吉尼亚...
综上所述,我们可以将UMAP描述为: 一种降维技术,假设可用数据样本均匀(Uniform)分布在拓扑空间(Manifold)中,可以从这些有限数据样本中近似(Approximation)并映射(Projection)到低维空间。 上面对算法的描述可能会对我们理解它的原理有一点帮助,但是对于UMAP是如何实现的仍然没有说清楚。为了回答“如何”的问题,让我们分析...
如果能够有方法将高维空间中流形描述出来,那么在降维的过程中就能够保留这种空间关系,为了解决这个问题,流形学习假设高维空间的局部区域仍然具有欧式空间的性质,即它们的距离可以通过欧式距离算出(Isomap),或者某点坐标能够由临近的节点线性组合算出(LLE),从而可以获得高维空间的一种关系,而这种关系能够在低维空间中保留...
1. 降维基本概念 2. 从什么角度出发降维 3. 降维算法 3.1 主成分分析PCA 3.2 多维缩放(MDS) 3.3 线性判别分析(LDA) 3.4 等度量映射(Isomap) 3.5 局部线性嵌入(LLE) 3.6 t-SNE 3.7 Deep Autoencoder Networks 4. 小结 5. 代码附录 老规矩,先上一个各个降维算法信息表对...
下面,会把每种降维算法给大家把原理和推理都描述清楚,感兴趣的可以点赞、收藏起来,慢慢学习~ 主成分分析(PCA) PCA 是一种线性降维技术,通过将高维数据投影到较低维的空间来保持数据的方差最大化,从而减少维度。 原理: PCA 通过计算数据的协方差矩阵,找到其特征值和特征向量,然后用前几个特征向量来表示数据。
这时候降维算法就像一把数据精简刀,能在保留关键信息的前提下,把高维数据压缩到低维空间,让后续分析或建模更高效。最常用的降维方法是主成分分析(PCA)。它的核心思路是找数据分布最分散的方向。打个比方,假设二维数据点像斜着的椭圆分布,长轴方向就是数据变化最大的方向,PCA会优先保留这个方向的信息。最后选前...
降维算法——自编码器(Autoencoders)是一种无监督的神经网络,主要用于数据的压缩和特征学习。它们通过学习输入数据的表示来重构输入数据。自编码器由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器将输入数据压缩成较低维度的表示,而解码器则将这个表示重构回原始数据。一、应用场景 - 特征学习:自编码...
PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论...
不同于PCA,LDA降维时需要类别信息,因此LDA是一种监督降维算法。PCA的思想可以用一句话概括,“内间均值差最大,类内方差最小”。以下图的二维数据为例: 我们希望将这些数据投影到一维的一条直线,让每一种类别数据的投影点尽可能的接近,而红色和蓝色数据中心之间的距离尽可能的大。上图中提供了两种投影方式,从直观...