在这项研究中,我们通过开发一种基于氨基酸理化特性的蛋白质序列图形表示新技术,并有效地利用了蛋白质序列的新特征提取模型 FEGS(基于图形和统计特征的特征提取)。蛋白质序列的统计特征。通过融合图形和统计特征,FEGS 将蛋白质序列转换为 578 维数值向量。当 FEGS 应用于五个蛋白质序列数据集的系统发育分析时,其性能...
1.一种基于多模态蛋白质序列的特征提取与编码方法,其特征在于,所述方法包括:步骤A、分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;步骤B、对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;步骤C、将所述三种高级的特...
利用分层聚类法获取蛋白质序列的分层结构.这种新方法将基于功率谱的DNA序列特征提取方法推广到蛋白质序列上.通过基于19条动物线粒体脱氢酶亚基1和亚基4,以及11条β珠蛋白等3组数据的分层结构比较实验,结果表明,新方法在数据系统的分层结构的信息提取上优于基于功率谱的DNA序列分析方法.因此,新方法对确定未知基因的...
本发明公开了一种基于多模态蛋白质序列的特征提取与编码方法及系统,方法包括:分别基于蛋白质氨基酸序列的相对突变率,亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;将三种高级的特征表达经过级联后再次进行深度...
一种计算机应用技术领域的基于中文分词技术的蛋白质序列特征提取方法,包括以下步骤:(1)根据训练样本中的序列建立词典,找出对分类有用的氨基酸序列子串的集合;(2)切分序列,即对所有样本进行切分,将序列样本与建立好的词典中的词条进行匹配,并选择最优切分方式;(3)切分完毕后进行序列统计,统计每条序列中出现词典中各个...
的特征提取与编码方法及系统,方法包括:分别基于蛋白质氨基酸序列的相对突变率、亲水特性以及疏水特性对蛋白质序列进行特征提取,获取三种模态的蛋白质特征;对所述三种模态的蛋白质特征分别进行深度多项式网络编码,分别得到三种高级的特征表达;将三种高级的特征表达经过级联后再次进行深度多项式网络编码,获得融合后的蛋白质特征...