使用seqkit批量替换序列ID 在进行组装和比对过程中,要将测序ID替换成物种学名,一个一个替换太慢了,发现seqkit有这个功能。 seqkit replace --ignore-case --kv-file rename.txt --pattern "^(\w+)" --replacement "{kv}" genome.fa -o genome.new.fa rename.txt 就是改名列表,第一列是原ID,第二列是...
生物信息学入门-使用seqkit工具替换fasta文件序列id的内容 - 小明的数据分析笔记本于20210823发布在抖音,已经收获了2372个喜欢,来抖音,记录美好生活!
序列ID替换也可以使用在线工具https://birc.au.dk/~palle/php/fabox/header_replacer.php# 提取序列的指定字符为序列id 序列原有id格式如下: cat promoter.2000.fa >A07_5857965-5861421:._usf:2000 Gh_A07G050500.1 TGATGGAGGTTGAGATGGCCTCAGAACGGTATAAGTCGGGTCAATTCGATTTTTACGATT TCGGTGTCATTTCAAATTTGAATAATTC...
1、cut:切分操作(可以切分出一整列) 2、grep:检索(可以使用正则表达式) 3、sort:排序(可以对整列排序) 4、wc:统计字符、字数、行数 5、uniq:去重(只去除连续的重复值) 6、tee:双向重定向 7、split:文件切分(按字节大小、按行等) 8、xargs:参数代换(结合pipe使用) 9、tr、替换、压缩和删除 2、具体操作...
SeqKit是一种跨平台的、极快的,全面的fasta/q处理工具。SeqKit为所有的主流操作系统提供了一种可执行的双元文件,包括Windows,Linux,Mac OS X,并且不依赖于任何的配置或预先配置就可以直接使用。Sequence ID 大部分的软件,包括seqkit默认将主导的非空格字母作为ID。对fastq文件进行一个概括浏览 在...
然后,使用sub()函数将行中的>符号替换为空字符串, 得到序列ID,并将其赋值给变量id。 接着,将变...
用正则表达式来编辑序列/名称,支持按key-value文件来替换 对重复的序列ID重命名 对环状基因组重新设定序列起始位点。 连接多个文件中具有相同ID的序列 六、排序 打乱顺序 按序列ID/名称/序列/序列长度进行排序 功能实在太多,就不一一举例了,项目网站提供了丰富的文档供查阅,包括用法和详细的例子,甚至开发文档。
rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) shuffle 随机序列 sliding 序列滑窗提取,支持环形基因组 ...
rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) shuffle 随机序列 sliding 序列滑窗提取,支持环形基因组 ...
盲猜你是要提取fasta里面的chromosome或者contig?那直接grep '^>' your.fasta 不香吗?如果不是的话...