一个是苏剑林的Keras版本:https://github.com/bojone/BERT-whitening 一个是Pytorch版本:https://github.com/autoliuweijie/BERT-whitening-pytorch 我看了一遍Pytorch版本,主要的细节点我罗列在下面; 首先就是下载数据和下载一些英文预训练模型。 之后就是跑代码,分为三种方向: 第一种就是不使用白化的方式,直接在...
BERT-avg BERT-avg实现了 使用CLS-token最后一层的输出作为embedding(没有用BERT做NSP任务得到的CLS-pooling层) 使用第一层和最后一层的输出求平均作为embedding Bert-Whitening 把STS-B训练集输入BERT,用第一层和最后一层的输出求平均得到句子的embeddings,然后计算得到u和变换矩阵W保存下来。 预测时先得到句子的emb...
代码:https://github.com/bojone/BERT-whitening 核心思路 出发点:在句向量维度,通过一个白化的操作...
2.Bert-whitening:解决思想与Bert-flow差不多,但所做的变换更简单化了,用一个白化操作达到与Bert-f...
各向异性:词向量是有维度的,每个维度上基向量单位向量长度不一样,就是各向异性的。这样就会造成我们...