图 5:PCA 视图。a)BERT 解析树嵌入。b)精确毕达哥拉斯嵌入。c)不同的随机分支嵌入。d)节点位置是随机地独立选择的不同嵌入。该图的交互式版本请访问原文。PCA 投影已经很有趣了——BERT 嵌入和理想形式之间有明显的相似性。图 5c 展示了一系列随机分支的嵌入,也类似于 BERT 嵌入。图 5d 是基线,展示...
该软件会从 BERT 提取出该句子的上下文嵌入,经过 Hewitt 和 Manning 的「结构探针」矩阵的变换,得到一个在 1024 维空间中的点集。 然后,我们通过 PCA 将这些点映射到二维。为了展现其底层的树结构,我们连接了表示有依存关系的词的点对。下图 5 展示了一个样本句子的结果。为了比较,还给出了一个精确毕达哥拉斯...
基本的思路是,对所要编码的句子文本,首先编码成bert句向量,然后使用PCA进行降维,获取转换权重,然后把这权重嫁接到原始Bert的输出层上,这样我们就能直接获取简化后的Bert输出了,代码如下: defpca(file="cls.txt",new_dimension=128):sentences=load_sentence(filepath=file)random.shuffle(sentences)model=SentenceTransf...
PCA之前我有文章科普过,相当于是找一个投影空间,让所有高维的点在这个空间上的投影尽量分开,即方差尽量大。因此variance代表了不同主成分上包含原始矩阵的信息量。variance越高,信息量就越多。 实验结果如图所示: 可以看到,右边图例上,对于拼接后的矩阵,其variance累积曲线很快就接近了1.0,表明其有一大部分成分包含的...
图5. a)BERT解析树嵌入的PCA视图。 b)精确的毕达哥拉斯嵌入。 c)不同的随机分支嵌入。 d)不同的嵌入,其中节点位置是随机独立选择的。 PCA映射很有趣——BERT嵌入和理想化之间有一定的相似性。图5c展示了一系列随机分支嵌入,它们也类似于BERT嵌入。作为基准,图5d显示了一系列嵌入,其中单词随机独立放置。 但我...
然后,我们通过PCA将这些点投影到两个维度。为了显示基本的树结构,我们连接表示具有依赖关系的单词的点对。下面的图5显示了样本句子的结果,并且为了比较,显示了精确毕达哥拉斯嵌入、随机分支嵌入和节点坐标完全随机的嵌入对于相同数据的PCA预测。 图5. a)BERT解析树嵌入的PCA视图。 b)精确的毕达哥拉斯嵌入。 c)不...
注:PCA 能得到比 t-SNE 或 UMAP 更可读的可视化。当点在一个低维流形上聚类或分散时,非线性方法的效果可能最好——基本上与 n-立方体的顶点相反。 为了研究这些差异,我们创造了一种可视化工具。我们的论文给出了详细情况,这里只提供些概述。该工具的输入是带有相关的依存解析树的句子。该软件会从 BERT 提取出...
学习表示分析:通过 UMAP 降维可视化和主成分分析(PCA)等方法分析学习到的表示。发现 BERT 特征具有更结构化的组织,正样本(有毒化合物)分布在不同的簇中,使模型能更好地基于与标记样本的接近程度对未标记样本进行预测;而 ECFP 表示分布更分散,正负样本区域重叠明显,导致模型难以学习有意义的模式,不确定性估计不可靠...
上面说到,直接用BERT句向量做无监督语义相似度计算效果会很差,任意两个句子的BERT句向量的相似度都相当高,其中一个原因是向量分布的非线性和奇异性,BERT-flow通过normalizing flow将向量分布映射到规整的高斯分布上,更近一点的BERT-whitening对向量分布做了PCA降维消除冗余信息,但是标准化流的表达能力太差,而whitening...
PCA投影已经很有趣 - BERT嵌入和理想化之间有一定的相似性。 图5c示出了一系列随机分支嵌入,其也类似于BERT嵌入。 作为基线,图5d显示了一系列嵌入,其中单词随机独立放置。 但我们可以更进一步,并展示嵌入与理想化模型的不同之处。在下面的图6中,每条边的颜色表示欧几里德距离和树距离之间的差异。我们还用虚线连...