我们引入了一种新的方法,通过使用自然语言处理领域的语言模型BERT将DNA序列表示为连续词向量.通过对DNA序列进行建模,BERT有效地从未标记的大数据中捕捉到了DNA序列中的序列特性.我们将DNA序列的这种新的嵌入表示称为DNAVec (DNA-to-Vector).此外,我们可以从模型中提取出预训练的词向量用于表示DNA序列,用于其他序列级别...