获得了现成可用的医学BERT模型,以及大量带标注的数据集。 针对问题 医疗数据集与普通数据集分布不同,医疗词汇的长尾分布也很难从普通语料中学习,中文的词和短语更复杂一些。需要训练一个类似BERT的针对医疗的中文预训练模型。 本文贡献 提出了用于评价中文医疗语言模型的ChineseBLUE。 将实体和语言领域知识注入到模型,实...
本文根据实体关系抽取的特点,提出了SEF-BERT关系抽取模型(Fusion Sentence-Entity Features and Bert Model).该模型以预训练BERT模型为基础,文本在经过BERT模型预训练之后,进一步提取语句特征和实体特征.然后对语句特征和实体特征进行融合处理,使融合特征向量能够同时具有语句和两个实体的特征,增强了模型对特征向量的处理...
本文根据实体关系抽取的特点,提出了SEF-BERT关系抽取模型(Fusion Sentence-Entity Features and Bert Model).该模型以预训练BERT模型为基础,文本在经过BERT模型预训练之后,进一步提取语句特征和实体特征.然后对语句特征和实体特征进行融合处理,使融合特征向量能够同时具有语句和两个实体的特征,增强了模型对特征向量的处理...
将实体和语言领域知识注入到模型,实现了基于医学的预训练模型MC-BERT。 相关工作 BERT类模型将语境引入建模。后续的改进包括:有效地利用外部知识,如知识图改进表征效果;通过控制BERT的MASK方法改进效果;BioBert利用医学领域数据训练模型,本文将结合上述几种方法,以训练中文医疗知识表征。 方法 相对BERT的改进有以下三部分...
将实体和语言领域知识注入到模型,实现了基于医学的预训练模型MC-BERT。 相关工作 BERT类模型将语境引入建模。后续的改进包括:有效地利用外部知识,如知识图改进表征效果;通过控制BERT的MASK方法改进效果;BioBert利用医学领域数据训练模型,本文将结合上述几种方法,以训练中文医疗知识表征。