当BERT-whitening引入超参数:总有一款适合你 - 科学空间|Scientific Spaceskexue.fm/archives/9079 在《你可能不需要BERT-flow:一个线性变换媲美BERT-flow》中,笔者提出了BERT-whitening,验证了一个线性变换就能媲美当时的SOTA方法BERT-flow。此外,BERT-whitening还可以对句向量进行降维,带来更低的内存占用和更快的...
首先,由于BERT-whitening方法上比较简单,所以不排除别人独立做出同样结果的可能性,因此WhiteningBERT刚出现在Arxiv时并未太在意;其次,退一万步讲,假设(仅仅是假设)就算是WhiteningBERT抄了BERT-whitening,那也只是放到Arxiv上小打小闹,不是什么大事,所以没必要浪费时间在上面。 然而,当得知WhiteningBERT中了EMNLP2021后,...
2)向量分布不均匀,低频词稀疏,⾼频词紧密,且聚集于不同的分布空间。既然问题已经定义清楚了,那这么卷的 NLP 领域肯定会有解决⽅法。因此 BERT-flow 还有 Bert-whitening 就出现了,这两篇⽂章解决的都是问题是⼀致的,都是想解决句⼦ embedding 的各向异性及向量的分布不均匀问题。
论文链接:https://arxiv.org/abs/2103.15316 代码:https://github.com/bojone/BERT-whitening 至于具体介绍可以直接看论文原作者的解析,这里就不献丑了。你可能不需要BERT-flow:一个线性变换媲美BERT-flow - 科学空间|Scientific Spaces