在进行组装和比对过程中,要将测序ID替换成物种学名,一个一个替换太慢了,发现seqkit有这个功能。 seqkit replace --ignore-case --kv-file rename.txt --pattern "^(\w+)" --replacement "{kv}" genome.fa -o genome.new.fa rename.txt 就是改名列表,第一列是原ID,第二列是新ID,中间用tab隔开。 gen...
replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) ...
| seqkit replace -p .+ -r "ASV_{nr}" echo -e ">abc\nACTG\n>123\nATTT" \ | seqkit replace -p .+ -r "SAV_{nr}" --nr-width 5 rename 重命名重复的ID # 重命名:相同序列会在后面加上_2 来处理 echo -e ">a comment\nacgt\n>b comment of b\nACTG\n>a comment\naaaa" \ |...
insertion, deletion) rename rename duplicated IDs replace replace name/sequence by regular...
replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) ...
然后,使用sub()函数将行中的>符号替换为空字符串, 得到序列ID,并将其赋值给变量id。 接着,将变...
1.grep根据id名(可正则匹配)or特定的序列模式(motifs)来 搜索/提取序列。 -n根据序列全名来提取序列。 -p -r根据一定的正则匹配pattern来提取序列。 -v反向提取序列,即去除匹配的序列。 -f根据id list来批量提取序列,很好用。 -s -p atcgatcg根据某段序列motif来提取序列。
$ seqkit replace --kv-file changes.tsv --pattern "^([^ ]+ )(\w+) " \ --replacement "\${1}{kv} " --key-capt-idx 2 --keep-key viral.1.protein.faa.gz > renamed.fa seqkit grep 的使用(通过ID/名称/序列/序列motif来搜索序列,允许错配) Usage:seqkit grep [flags] Examples: 1-bas...