$ seqkit concat <(seqkit subseq -r1:2t.fa) <(seqkit subseq -r -2:-1t.fa)#连接前面两个碱基和后面两个碱基$ seqkit concat1.fa2.fa#将两个fa文件合二为 5.stats 数据统计 $seqkit stats *.f{a,q}.gz#统计序列信息$seqkit stats *.f{a,q}.gz -T#用tab分割$seqkit stats *.f{a,q}.gz...
seqkit subseq --gtf Arabidopsis_thaliana.TAIR10.49.gtf.gz Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz -u 3 |head # 仅提取上游序列,如提取启动子区2k:-f仅定位不输出位置序列,-u输出上游序列,此处示例3bp seqkit subseq --gtf Arabidopsis_thaliana.TAIR10.49.gtf.gz Arabidopsis_thaliana.TAIR10.dna....
1. 安装conda安装conda install -c bioconda seqkitMac安装brew install seqkit # 用于苹果电脑2. 用法...
改变随机种子 2.3 subseq 用此指令提取序列. 可以观察到第一个参数是源文件,第二个参数是对应键名文件,我们根据name.list去提取文件. seqtk subseq genome.fa name.list | less -N 我们可以改变name.list的文件内容,让subseq提取不同位置的碱基.代码保持不变,获得的碱基不同了. ...
seqkit, add amino acid code O (pyrrolysine) and U (selenocysteine). seqkit replace, add flag --nr-width to fill leading 0s for {nr}, useful for preparing sequence submission (">strain_00001 XX", ">strain_00002 XX"). seqkit subseq, require BED file to be tab-delimited.SeqKit...
seqkit subseq --gtf t.gtf t.fa -u 3 -f 3.sliding根据滑窗取序列 4.stats对序列fa/fq文件进行基本统计 -a *.fq.gz包括所有的统计信息 -T输出\t分割的文件,可接下来进行管道操作 ##接管道csvtk进行操作 seqkit stats *.f{a,q}.gz -T | csvtk pretty -t ...
截取序列(subseq) ## 给定一bed文件;name start end; 从fasta文件中截取相对应序列(序列从0开始计数)seqkit subseq--bed gene.bed test.fa>>gene.subseq.fa 去除重复序列(rmdup) 给定一fasta/q序列,从重去除重复序列,保留唯一序列 seqkit rmdup-n test.fa>test_rmdup.fa##参数-n:根据ID(全部名称)去除重复...
subseq 通过region/gtf/bed得到子序列,包括侧翼序列 tab2fx 转换表格格式为FASTA/Q格式 translate 翻译DNA/RNA到蛋白质序列(支持歧义碱基) version 打印版本信息并检查是否更新 watch 序列特征的监测和在线直方图 参数 Flags: --alphabet-guess-seq-length int seqkit根据第一个FASTA记录猜测序列类型的序列前缀的长度(...