在高维数据分析中,t-SNE(t分布随机邻域嵌入)是一种流行的降维技术。它可以有效地将高维数据映射到低维空间,以便于可视化和进一步分析。在t-SNE中,一个关键的参数叫做“困惑度”(Perplexity),它影响着数据的聚类结构和效果。 什么是困惑度? 困惑度是t-SNE算法中的一个重要超参数,通常表示为P。它与数据点的选择有...
with equal numbers of points.”,然后我⾃⼰参数point per cluster是20,然后perplexity选了40。最后⽆法收敛。所以你⼤概也能猜来这个参数到底应该选什么了,⽂章⾥也说了,应该要⽐point per cluster⼩。⽂章⾥也讨论了t-sne的其他特性和表现。这⾥就不再阐述了,有兴趣的可以看看。
perplexity的原本定义是“expected density”,也就是说预估每个cluster可能有多少个元素,有点类似dbscan里的min_sample。 这里有一个可以玩的网站,试试t-sne在不同的参数下跑的结果怎么样。 https://distill.pub/2016/misread-tsne/ 作者自己做了实验,每个cluster有50个点的情况下,看不同的perplexity会有什么结果。
ax.axis('tight') fig.suptitle("t-sne:不同perplexity值对形状的影响" , fontsize=24) plt.show()
The t-distributed Stochastic Neighbor Embedding (t-SNE) algorithm is a ubiquitously employed dimensionality reduction (DR) method. Its non-parametric nature and impressive efficacy motivated its parametric extension. It is however bounded to a user-defined perplexity parameter, restricting its DR quality...
Perplexity-free Parametric t-SNE.Francesco CrecchiCyril de BodtMichel VerleysenJohn A. LeeDavide BacciuThe European Symposium on Artificial Neural Networks