通过ESM3,研究人员成功生成了一种绿色荧光蛋白的变体,其与现有蛋白质的差异程度相当于模拟了超过5亿年的进化过程。这一成果展示了语言模型在探索蛋白质演化中的巨大潜力。 ESM3 ESM3是一种可扩展的生成模型,通过语言建模实现对蛋白质三大基本属性——序列、结构和功能的建模。传统的蛋白质生成模型多聚焦于单一模态,...
因此,在这项工作中,作者着手将利用进化尺度建模(ESM)模型家族的PLMs的优势与Rosetta的灵活性相结合,实现对PLM预测的蛋白质序列空间的高效组合采样。为此,作者分析了34个全新蛋白质的Rosetta设计序列的预测概率(PLM评分),因为这些蛋白质不是PLM训练数据的一部分(所有这些在对UniProt数据库进行blast搜索中未产生匹配)。作...
此外,ESM-AA 模型也在蛋白质接触预测、蛋白功能分类以及分子性质预测等任务上测试了性能。 结果显示,在处理仅涉及蛋白质的任务时,ESM-AA 的表现与 ESM-2 相当;在分子任务上,ESM-AA 模型的性能优于大多数基准模型,与Uni-Mol的表现相近。 这表明,ESM-AA 在获取强大分子知识的过程中并未牺牲对蛋白质的理解能力,...
ESM-AA 模型构建:多尺度预训练与编码,实现统一分子建模 受多语言代码切换方法的启发,ESM-AA 在进行预测与蛋白质设计任务时,首先会随机解压缩部分残基,从而生成多尺度代码切换蛋白质序列,随后通过精心设计的多尺度位置编码对这些序列进行训练,并且已经在残基和原子尺度上证明了其有效性。当处理蛋白质分子任务时,...
此外,团队通过对预测模型的可解释性分析发现神经网络对于DNA结合域的高度关注,从而导致了ESM-DBP在DNA结合蛋白质预测任务上的高准确率,大大提升了蛋白质语言模型黑箱的可解释性。最后,在两个由ESM-DBP预测的DNA结合蛋白质(UniProt ID: E5...
ESM-AA 模型构建:多尺度预训练与编码,实现统一分子建模 受多语言代码切换方法的启发,ESM-AA 在进行预测与蛋白质设计任务时,首先会随机解压缩部分残基,从而生成多尺度代码切换蛋白质序列,随后通过精心设计的多尺度位置编码对这些序列进行训练,并且已经在残基和原子尺度上证明了其有效性。
研究团队提出了一种多尺度的蛋白质语言模型 ESM-AA。 清华大学、北京大学、南京大学的联合研究团队提出了一种多尺度的蛋白质语言模型 ESM-AA,在靶点-配体结合等任务上的性能显著提升。 作为细胞内无数生化反应的驱动力,蛋白质在细胞微...
受多语言代码切换方法的启发,ESM-AA 在进行预测与蛋白质设计任务时,首先会随机解压缩部分残基,从而生成多尺度代码切换蛋白质序列,随后通过精心设计的多尺度位置编码对这些序列进行训练,并且已经在残基和原子尺度上证明了其有效性。 当处理蛋白质分子任务时,即涉及蛋白质和小分子的任务,ESM-AA 不需要任何额外模型辅助,...
蛋白质语言模型代表了 AI 技术在生物学中的前沿应用。其通过学习蛋白质序列的模式和结构,能够预测蛋白质的功能和形态,对于新药开发、疾病治疗和基础生物学研究具有重大意义。 此前,蛋白质语言模型如 ESM-2 和 ESMFold 已经展现出与 AlphaFold 相媲美的准确性,并且具备更快的处理速度和对「孤儿蛋白质」更准确的预测...
因此,作者提出了一种新方法ESM-AA(ESM All-Atom),它通过预训练多尺度代码切换蛋白质序列,并使用多尺度位置编码来捕捉残基和原子之间的关系,从而实现了原子尺度和残基尺度统一的分子建模。实验结果表明,ESM-AA在蛋白质分子任务中超越了先前的方法,展示了蛋白质语言模型的充分利用。进一步的调查揭示了通过统一分子建模,...