我们知道人类的语言是一种序列信息,而生命的语言 DNA 也是一种序列信息。生成式大语言模型在人类语言处理和生成上取得了巨大的成功,成为我们阅读,学习和写作的有力助手。我们就想能否把这套方法应用在生命的序列上,即在生命的语言 DNA 上训练大语言模型,从而帮助我们解读 DNA 编码的信息,设计出具有特定功能的 ...
除了蛋白质序列之外,DNA序列中编码的依赖模式在理解基因组过程方面起着基础性作用,从表征调控区域到评估单个变异在其单倍型背景下的影响。 在此背景下,专门的深度学习(DL)模型已被训练用于揭示DNA中的有意义模式。 例如,深度学习模型已被用于根据DNA序列预测基因表达,最近的进步结合了卷积神经网络和变压器架构,能够对位...
在模型架构上借鉴了Meta公司开发的多层transformer架构,每层注意力机制用以处理不同精度的DNA信息,克服了传统transformer模型只能处理短序列的限制。最终模型使用了三层transformer结构,包含1.5亿个参数。可以一次性分析长达10万个碱基的DNA序列,足以覆盖多数噬菌体的完整基因组。 研究团队推测DNA大语言模型在训练过程中掌握...
而DNA的序列跟自然语言很像,它们都是某种语言,只不过人类的语言由几千乃至几万个词组成,而DNA是由ATCG这4个碱基组成,它们都是序列数据。所以能不能把这种语言模型用在对DNA的处理上,我觉得是一个很重要的问题,如果我们能用类似于ChatGPT的方法去理解DNA,能够实现对DNA的交互设计,实现对DNA的知识挖掘,我觉得是非...
我们使用MambaDNA作为Caduceus的基础,Caduceus是首个RC等变的双向长距离DNA语言模型家族,并且我们引入了预训练和精调策略,这些策略使Caduceus DNA成为基础模型。在下游基准测试中,Caduceus的表现超过了以往的长距离模型;在一个挑战性的长距离变异效应预测任务上,Caduceus的表现超过了那些未能利用双向性或等变性的体积大10...
该模型基于Mamba竞争对手,可以高效地预测DNA序列 模型规模小,但预测能力强大 该模型已经在DNA测序领域得到了广泛的应用 标签:Mamba,DNA测序,序列预测模型 原文链接见文末/5 6. OpenAI发布Transformer调试工具 OpenAI的超对齐团队开发了一款名为Transformer Debugger的工具,以支持对小型语言模型的特定行为进行调查。该工具将...
大语言模型解码生命“语言” 参考消息网11月19日报道据美国《科学》周刊11月15日报道,DNA只用四个“单词”,即四种核苷酸就编码了细胞中所有层面调控活动所需的基本信息。这些指令指导着每个细胞的功能并在代际之间传递信息。基因组序列的变化驱动着进化,使有机体通过自然选择有利的DNA序列来适应其所在的环境。因此,...
近日,我国科学家在《自然·通讯》杂志发表了一项令人瞩目的研究,成功构建了全球首个针对完整基因组序列的生成式大语言模型——megaDNA。该模型拥有1.5亿个参数,标志着从无到有的重要突破,极大地拓展了生成式语言模型的应用领域。 生成式语言模型,像GPT系列,能够根据输入的提示生成丰富的文本内容。这类模型的基础是tran...
Evo模型架构,基于StripedHyena 由于Evo的基因组训练数据中不仅仅包含蛋白质,基因组中还包含ncRNA和调控DNA序列。 Evo模拟了生物学的基本模式 因此Evo是一种蛋白质语言模型,它也是一种RNA语言模型,甚至是一个DNA模型。 值得注意的是,Evo能够对蛋白质、ncRNA和调控DNA进行零样本功能预测,从而跨越中心法则的所有三种模式...
Evo模型架构,基于StripedHyena由于Evo的基因组训练数据中不仅仅包含蛋白质,基因组中还包含ncRNA和调控DNA序列。 Evo模拟了生物学的基本模式跨DNA、RNA和蛋白质模式的零样本函数预测 经过检验,Evo能够很好地学习蛋白质语言以执行零样本蛋白质功能预测,在蛋白质训练上甚至可以与最先进的蛋白质语言模型(如ESM或ProGen)竞争...