3)我们发现该方法可以持续提高BERT的STS性能,而且在训练数据稀缺的情况下,其益处尤其显著。 作为近年来最著名的模型,Bert及其变体,包括albert,RoBERTa,SemBERT,ERNIE, K-BERT,和DeBERTa,已经在许多nlp任务中取得了优异的结果。其中,SemBERT、ENRIE、K-BERT都在原有的BERT模型中添加了知识,但方式不同。SemBERT和K-BERT...