根据序列的ID号从FASTA文件中批量提取序列是在平时常常要做的工作,Linux当中grep和awk工具、Perl语言和Python语言,以及samtools等都可以实现,以下是博主用Python实现的从FASTA文件中批量提取序列的脚本。 说明 需要用到fasta文件和ID的list文件。 所要提取的序列的ID需要提前写进一个文件中,每行一个。 提取结果也以文...
importpandasaspdimportnumpyasnpfromBioimportSeqIOfromBio.SeqUtils.ProtParamimportProteinAnalysis# read fastare={}withopen('***.fasta')asf:forlineinf:seq=[]ifline.startswith('>'):id=line.split(' ')[0].split('_')#切片分割序列名称id='_'.join(id[:4])#合并切片的前5部分else:seq.append(line...
根据ID从FASTA文件中批量提取序列是做序列分析常做的事情,有网友让我帮忙从11万条中挑选7万条,我自己写写了一个,太慢了;后来发现Biopython官方文档里面“Cookbook – Cool things to do with it”第一件事就是做这个事情的,后来我又学习了“冷月”小伙伴在知乎的帖子,稍微改写了一下,其实就是ctrl+c和ctrl+v...
脚本设计时,采用click模块简化命令行参数的添加。借助click,可便捷地定义命令、参数和选项,使得脚本更为人性化。此步骤简化了用户交互,提升了使用体验。另一种方法则是将FASTA文件中的序列导入字典中进行查找。这种方式在大数据处理时,能显著提升效率。通过字典查找,避免了传统遍历文件的低效操作,使得提...