| seqkit sample -p 0.1 \ | seqkit head -n 1000 -o sample.fa.gz # 设置随机种子,方便重复结果: -s 11 zcat hairpin.fa.gz \ | seqkit sample -p 0.1 -s 11 |head # 抽样后打乱序列 :seqkit shuffle zcat hairpin.fa.gz \ | seqkit sample -p 0.1 \ ...
zcat C1_1.fq.gz | seqkit sample -p 0.1 -o sample.fq.gz # 抽样1000条 zcat C1_1.fq.gz | seqkit sample -n 1000 -o sample.fq.gz 1. 2. 3. 4. 注意:1000条并不是很准确,可能是900多条,为什么呢?看这里了解问题。https://bioinf.shenwei.me/seqkit/note/#effect-of-random-seed-on-resu...
5.sample随机取一定数量n或比例的序列。 -n 100随机约位100个子序列。 -p 0.1取大约为10%的子序列。 -s设置随机种子。 6.head取前-n个fq/fa子序列;range取指定范围-r -10:-1的序列 Fastq/Fasta的编辑修改(Edit) 1.replace可根据正则对name/seq进行修改。 -s对序列进行更改。默认是对名字name进行修改 ...
zcat C1_1.fq.gz | seqkit sample -p 0.1 -o sample.fq.gz # 抽样1000条 zcat C1_1.fq.gz | seqkit sample -n 1000 -o sample.fq.gz 注意:1000条并不是很准确,可能是900多条,为什么呢?看这里了解问题。https://bioinf./seqkit/note/#effect-of-random-seed-on-results-of-seqkit-sample 这里为...
zcat hairpin.fa.gz | seqkit sample -p 0.1 -o sample.fa.gz #按照比例取序列 zcat hairpin.fa.gz | seqkit sample -n 1000 -o sample.fa.gz #按照数量11. renamecat in.fa | less #和seqtk中rename的区别是前者会从1到n重新排序,后者是对后来重复的内容加_2到_n的后缀 >a comment acgt >b ...
集合操作:如head打印首行,sample抽样,rmdup去除重复序列等。 编辑和排序:replace修改序列,rename重命名,sort进行序列排序。 具体用法:通过添加环境变量调用,如`export PATH=path:$PATH`,并参照各种命令的参数选项进行操作,例如`seqkit seq -w 100 test.fa`以100碱基为行输出序列。例如,对文...
-p, --proportion float sample by proportion -s, --rand-seed int rand seed for shuffle (default 11) -2, --two-pass 2-pass mode lower memory 举例:随机抽取序列 seqkit sample -n 10000 -s 11 test1_1.fq -o sample.fq seqkit sample -p 0.1 -s 11 test1_1.fq -o sample.fq ...
seqkit sample -n 10000 -s 11 test1_1.fq -o sample.fq seqkit sample -p 0.1 -s 11 test1_1.fq -o sample.fq 八、排序输出命令 seqkit sort [flags] 参数: -l, --by-length 按照序列长度排序 -n, --by-name by full name -s, --by-seq ...
seqkit sample -n 10000 -s 11 test1_1.fq -o sample.fq seqkit sample -p 0.1 -s 11 test1_1.fq -o sample.fq 八、排序输出命令 seqkit sort [flags] 参数: -l, --by-length 按照序列长度排序 -n, --by-name by full name -s, --by-seq 按照序列排序 ...
csv| tail -n +2 | cut -d, -f 10 | xargs -i echo wget {} \& 3. 对Seqkit工具的应用对fq文件基本情况统计seqkit stat *.gz 统计每个序列的GC情况 seqkit fx2tab --name --only-id --gc *.gz ==根据id号提取序列==### 随机创造个id列表 seqkit sample -p 0.001 duplicated-reads.fq....