转录因子结合位点(TFBS)是TF结合的DNA片段,通常在4-30bp范围内。转录因子通常同时调节多个基因,在某种程度上,其在不同基因上的结合位点是保守的,但并不完全相同。因此,DNA-蛋白质结合的准确预测对于理解转录因子的生理作用,表征基因组的特定功能特征以及阐明在复杂生物体中如何精心编排高度特异性的序列表达程序...
表1. ULDNA和9种蛋白质-DNA结合位点预测方法在PDNA-128测试集上的性能比较 进一步,研究人员分别单独或联合利用蛋白质大语言模型ESM2、ProtTrans和ESM-MSA transformer抽取序列的特征表示,再结合LSTM-Attention Network进行DNA结合位点预测,进...
DNA-蛋白质结合位点预测的解决方案,主要工作内容如下:(1)本文同时考虑了DNA的序列信息和其形状特征,并在密集连接网络的基础上设计了一种用于预测DNA-蛋白质结合位点的深度神经网络Shape-Dense Net.混合的编码方式能够为神经网络的训练提供更多的特征,实验表明,通过将DNA序列信息和其形状特征结合,DNA-蛋白质结合位点的...
基于特征融合的DNA-蛋白质结合位点预测 薛广富 (景德镇陶瓷大学,江西景德镇333000)1概述 蛋白质与DNA 的相互作用是分子生物学的核心问题之一,在基因调控、转录、DNA 复制和DNA 修复等一系列基生命物活动中发挥着重要作用[1]。了解DNA 结合残基的结合特异性和亲和力不仅有助于理解蛋白质-DNA 复合物的识别机制,还...
此项研究提供了一种新的高通量生物计算方法,它能够快速准确地从大规模蛋白质序列中预测出潜在的DNA结合位点。 研究人员首先在PDNA-128测试集上比较ULDNA和9种主流的蛋白质-DNA结合位点预测方法的性能,其中PDNA-128包含了128条在2023年1月以后加入蛋白质结构数据库PDB的蛋白质序列。从表1中可见,ULDNA的MCC (...
一种预测DNA蛋白质结合位点的集成学习方法本发明涉及一种预测DNA蛋白质结合位点的集成学习方法,其包括以下步骤:获取DNA结合蛋白质位点的蛋白质序列数据;对DNA结合蛋白质位点的蛋白质序列数据预处理;使用one‑hot编码方式构建输入数据;将提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;使用SMOTE算法...
主权项:1.一种基于自注意力残差网络的DNA-蛋白质结合位点预测方法,其特征在于,具体步骤为:步骤1:对ChIP-seq数据集进行同源性去除,对ChIP-seq数据集中DNA序列进行编码,将DNA序列中的碱基转换为特征向量;步骤2:对步骤1处理后的数据集进行随机下采样构建全局训练数据集Init-Dataset;步骤3:构建基于自注意力机制与残差结...
专利摘要:本发明公开了一种多视图图嵌入融合的蛋白质‑DNA结合位点预测方法EGPDI,利用蛋白质结构生成模型AlphaFold2获取蛋白质结构,整合蛋白质序列构成数据集;将蛋白质‑DNA结合位点问题转换为图节点分类问题;使用预训练的蛋白质语言模型pLMs生成嵌入和手工设计的特征共同构成图的节点特征编码;基于蛋白质的3D结构信息设...
综述生物信息学方法在判断DNA结合蛋白质和预测结合位点中的应用研究进展.蛋白质与DNA间的相互作用是基因表达调控的分子生物学基础,因此DNA结合蛋白的判断以及DNA与蛋白质间作用位点的预测一直以来都是分子生物学和生物信息学的前沿领域.采用生物信息学方法进行这类判断和预测,具有省时,省力的特点,近年来吸引了众多科学家...
本发明涉及一种预测DNA蛋白质结合位点的集成学习方法,其包括以下步骤:获取DNA结合蛋白质位点的蛋白质序列数据;对DNA结合蛋白质位点的蛋白质序列数据预处理;使用one‑hot编码方式构建输入数据;将提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;使用SMOTE算法对正样本数据进行过采样;根据正样本...查...