作者在该文中提出了一种深度学习模型CLAPE,用于从蛋白质序列或结构中识别蛋白与DNA的结合位点。该模型结合了大规模预训练的蛋白质语言模型和对比学习方法以此来准确预测给定蛋白质序列的DNA结合位点。为了验证模型的泛化性,CLAPE-DB模型在两个基准数据集上比现有基于序列的模型具有更优的分类性能。此外,在没有准确的...
本文首先提出了一种结合对比学习和预训练语言模型的方法(CLAPE),以此来预测DNA结合位点。为了评估模型的分类性能和泛化能力,作者在两个外部蛋白质与DNA结合位点的测试集进行了实验,结果表明在仅基于序列信息的条件下CLAPE-DB具有更优的泛化能力,并对于DNA结合位点具有特异性。因此该模型的提出有助于人们探索未知结构的蛋...
语言模型助力探索蛋白质-DNA结合位点mp.weixin.qq.com/s?__biz=MzkzNjIzMTU0Nw==&mid=2247544058&idx=1&sn=8ecb6def4687b7c6fa4e9e8546ee1ede&chksm=c2a3bbeef5d432f8d4597400b6066b5c4c52d820f2ef85782d3661b762ae7286494576b9b081&token=459320198&lang=zh_CN#rd 今天给大家讲一篇2024年1月在Br...
质DNA结合位点的装置.所述方法包括:分别将参考蛋白质集的氨基酸序列和待测蛋白质的氨基酸序列拆分为具有预定氨基酸数目的多个候选单元;确定所述多个候选单元每一个的氨基酸属性,确定所述待测蛋白质的蛋白质DNA结合位点.利用本发明的确定蛋白质DNA结合位点的方法及装置能够准确地确定蛋白质DNA结合位点,且步骤简单,操作...
作者提出了CLAPE模型用于预测蛋白质‑DNA结合位点(图1),其包含三个核心模块,序列嵌入模块是根据ProtBert的预训练语言模型生成蛋白质序列表征。主干提取模块则是通过MLP, CNN等模型提取深层的蛋白信息。损失函数模块包括解决类别不平衡的focal loss及对比损失,并通过反向传播更新模型参数。基于预训练模型来提取特征可以有效...
所述方法包括:分别将参考蛋白质集的氨基酸序列和待测蛋白质的氨基酸序列拆分为具有预定氨基酸数目的多个候选单元;确定所述多个候选单元每一个的氨基酸属性,确定所述待测蛋白质的蛋白质‑DNA结合位点。利用本发明的确定蛋白质‑DNA结合位点的方法及装置能够准确地确定蛋白质‑DNA结合位点,且步骤简单,操作方便,极大地...
研究人员首先在PDNA-128测试集上比较ULDNA和9种主流的蛋白质-DNA结合位点预测方法的性能,其中PDNA-128包含了128条在2023年1月以后加入蛋白质结构数据库PDB的蛋白质序列。从表1中可见,ULDNA的MCC (Mathew’s Correlation Coefficient)、A...
针对蛋白质-DNA结合位点预测问题,他们开发了一种新的深度学习预测方法ULDNA。 ULDNA 的核心思想是利用蛋白质大语言模型针对序列设计特征表示,再结合注意力机制的长短期记忆网络(LSTM-Attention Network)训练DNA结合位点预测模型。研究人员选取了PDNA-128、PDNA-316、PDNA-335等7个基准数据集(蛋白质序列数目从40到600...
测定蛋白质与DNA结合位点的电泳迁移率变动分析法(1)放射性标记DNA探针的制备l聚丙烯酰胺凝胶的制备1.按照(三)中操作流程灌制非变性聚丙烯酰胺凝胶。将10×TBE稀释成0.5×的工作浓度。聚丙烯酰胺的工作浓度取决
1.一种检测蛋白质dna结合位点的方法,其特征在于,包括: 将dna片段库进行测序,以便获得dna片段库的dna序列,所述dna片段库的dna片段在测序接头互补位后的序列是随机的,所述dna片段库中的dna片段预先与所述测序接头互补配对结合; 去除测序后的dna片段库中的新生链; ...