不同于 DNABERT,DNABERT-2 没有采用 BERT 中的 Positional Embedding,因为这种位置编码方法由预训练学习得到,这意味着预训练的序列最大长度为多少,后续的应用中也只能局限于此,无法外推 (序列长度扩展后依然可以有适合的位置编码),限制了很多基因组学下游任务的应用。 因此,非训练类型的 Positional Embedding 其实在...
别家的论文用dnabert,用dna序列训练bert模型,那么我们就用gpt训练一个gpt2模型啦,效果不管咋样,反正数据有了,下游评测也有了,换个瓶子装水就行。。。 先是数据准备,还是用人类基因组数据做训练语料,从头…
可以看到,二分类的精度大致能到80%左右,和dnabert等模型(83%左右)差别不是很大。