相对于上一代模型ESM-1b,Meta对模型结构、训练参数进行了改进,并增加了计算资源和数据。同时,相对位置嵌入的加入,使模型能够推广到任意长度的序列。 从结果来看,具有1.5亿个参数的ESM-2模型比具有6.5亿个参数的ESM-1b模型表现得更好。 此外,在结构预测的基准上,ESM-2也超过了其他的蛋白质语言模型。这种性能的提...
近日来,包括 Deepmind、华盛顿大学 Baker 组在内的各大前沿研究机构也针对蛋白质全原子建模问题展开了深入研究,提出了包括 AlphaFold 3、RoseTTAFold All-Atom 等针对蛋白质以及其他生命活动相关分子的全原子尺度建模模型,可以在很高的精度下实现对蛋白质结构、分子结构以及受体-配体结构等全原子尺度的精确预测。 虽然这些...
由于ESM-AA 基于现有的 PLMs 开发,该研究希望确定其是否仍然保留了对蛋白质的全面理解,从而通过使用二级结构预测 (secondary structure prediction) 和无监督接触预测 (unsupervised contact prediction) 任务,测试蛋白质预训练模型在蛋白质结构理解方面的能力。 结果表明,虽然 ESM-AA 在此类研究中可能无法实现最佳性能,...
该研究提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP,系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题,探索发现了基于大型蛋白质语言模型的高...
GraphEC是一种基于几何图学习的准确EC编号预测器(图1),整合酶活性位点和预测的蛋白质结构进行功能预测。给定蛋白质序列,ESMFold预测其结构并构建蛋白质图,提取几何特征并通过预训练语言模型(ProtTrans)增强。这些特征输入几何图学习网络进行几何嵌...
【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。
ESMFoldesmfold_v1()PDB + UR50End-to-end single sequence 3D structure predictor (Nov 2022 update). ESM-MSA-1besm_msa1b_t12_100M_UR50S()UR50 + MSAMSA Transformer language model. Can be used to extract embeddings from an MSA. Enables SOTA inference of structure. Released withRao et al...
能抗衡 AlphaFold 3 的生命科学大模型终于出现了。初创公司 Evolutionary Scale AI 发布了他们最新的 98B 参数蛋白质语言模型 ESM3。不仅支持序列、结构、功能的 all-to-all 推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界 5 亿年的进化。
2023 年 7 月,百图生科与清华大学联合提出了一种名为 xTrimo Protein General Language Model (xTrimoPGLM) 的模型,参数量高达千亿 (100B),在多种蛋白质理解任务(15 项任务中的 13 项任务)中显著优于其他先进基线模型。在生成任务上,xTrimoPGLM 能够生成与自然蛋白质结构类似的新蛋白质序列。
【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。