想要在seqkit中识别出来的序列ID为:NC_002516.2。 此时使用参数--id-regexp "\|([^\|]+)\| ",或者添加参数--id-ncbi,但如果是只要前面的gi数字作为ID的话,添加参数:--id-regexp "^gi\|([^\|]+)\|"。 注意:.seqkit.fai不同于samtools产生的.fai格式文件,seqkit使用整个序列开头而不是ID作为索引。
rename-重新命名重复的IDrestart-为环状基因组重新设置起始位置concat-将多个文件中含有相同的ID的序列连接成一条序列mutate-编辑序列(点突,插入,删除)6)排序sort-按照id/name/sequence进行排序2、具体用法。添加环境变量(添加到自己的.bashrc,别忘了source):export PATH=path:$PATH1)序列操作。seqkit seq [flags] ...
(start:end) rename rename duplicated IDs replace replace name/sequence by regular expression restart reset start position for circular genome rmdup remove duplicated sequences by id/name/sequence sample sample sequences by number or proportion seq transform sequences (revserse, complement, extract ID....
zcat hairpin.fa.gz | seqkit sample -p 0.1 -o sample.fa.gz #按照比例取序列zcat hairpin.fa.gz | seqkit sample -n 1000 -o sample.fa.gz #按照数量 11. rename cat in.fa | less #和seqtk中rename的区别是前者会从1到n重新排序,后者是对后来重复的内容加_2到_n的后缀>a commentacgt>b comment...
rename 重命名重复序列ID replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files ...
编辑和排序:replace修改序列,rename重命名,sort进行序列排序。 具体用法:通过添加环境变量调用,如`export PATH=path:$PATH`,并参照各种命令的参数选项进行操作,例如`seqkit seq -w 100 test.fa`以100碱基为行输出序列。例如,对文件进行长度统计和筛选特定序列:- seqkit fx2tab -l -g -n -i...
去除复制的序列 **duplicate** 复制N次的序列 **common** 通过id/名称/序列 发现多条序列中共有的序列 **split** 通过id/seq region/size/parts (mainly for FASTA) 将序列劈开成文件 **split2** 将序列通过大小或部分 劈开成文件 ## 编辑 **replace** 通过规律表达来代替名字或序列 **rename** 重新...
(mainly for FASTA) 将序列劈开成文件 **split2** 将序列通过大小或部分 劈开成文件 ## 编辑 **replace** 通过规律表达来代替名字或序列 **rename** 重新命名复制的ID **restart** 为环状基因组重新设置起始位置 **concat** 从多个文件中经由相同的ID来连接序列 **mutate** 编辑序列(点突,插入,删除) #...
Edit: concat, replace, restart, mutate, rename Ordering: sort, shuffle BAM processing: bam 一、安装 https://bioinf.shenwei.me/seqkit/usage/ 二、使用案例 更多功能有待于阅读文档。 SeqKit -- a cross-platform and ultrafast toolkit for FASTA/Q file manipulation ...