或者直接抽取固定的read 条数, 如抽取1百万条reads: 1seqtk sample -s 11 $dir/read1.fq.gz1000000|gzip >sub_r1.fq.gz2seqtk sample -s 11 $dir/read2.fq.gz1000000 |gzip> sub_r2.fq.gz 这个工具还可以根据比对的bam文件抽取子集,用法类似。
seqtk subseq in.fa reg.bed > out.fa 5.sample 随机抽样 seqtk sample -s100 read1.fq 10000> sub1.fq seqtk sample -s100 read2.fq 10000>sub2.fq 参数说明: sample: 使用的 seqtk 对应的 sample 命令, 进行reads随机提取; -s100: 设定随机...
seqtk sample -s100 input.fastq.gz reads数(如:1500) 或者 需要保留的数据比例(如:0.5) 其中-s是用于指定随机种子,当为PE数据时,随机数种子要相同,确保fastq的ID对应.
Usage:seqkit rmdup[flags]Flags:-n,--by-name by full name instead of just id-s,--by-seq by seq-D,--dup-num-filestringfile to save number and list of duplicated seqs-d,--dup-seqs-filestringfile to save duplicated seqs-h,--help helpforrmdup-i,--ignore-caseignorecase sample zcat hai...
seqtk sample -s 10 test.fq 0.4 #比例 seqtk sample -s 10 test.fq 100 #数量6.重命名 会将序列id变为从1到n...seqtk rename in.fa <前缀> > out.fa7..fastq转换为fasta,支持压缩格式seqtk seq -a in.fq.gz > out.fa.gz8.使用Phred算法从两端修剪低质量的碱基:seqtk trimfq in.fq > out....
从上图理解,格式是seqtk sample in.fa 分数|具体数字,也就是说我们可以抽取多少含量,也可以抽具体数字. seqtk sample atha.fasta 2 如果我们不改变随机种子,那么每次随机都会是一样的结果. -s 改变随机种子 2.3 subseq 用此指令提取序列. ...
seqtk sample -s100 Sample_R1.fq.gz 10000 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 案例3:subseq 提取序列 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk subseq in.fa reg.bed > out.fa ...
seqtk sample -s100 Sample_R1.fq.gz 10000 #可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 3.subseq 提取序列 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk subseq in.fa reg.bed > out.fa ...
比如说我们要从pair end的原始fastq文件中抽取10000条reads,可以用下面的命令。其中-s是seed,控制随机抽取,但是要注意在抽R1和R2的时候,一定要用相同的seed,这样才能保证抽出来的R1和R2仍然是配对的,否则有可能会错位。后面10000表示抽取的reads数目。 seqtk sample -s100 read1.fq 10000 > sub1.fq ...
{r1_files} do # 找到配对的R2文件 r2_file=$(echo ${r1_file} | sed 's/R1/R2/') # 对R1和R2文件进行抽样 zcat ${r1_file} | seqtk sample -s${seed} - ${target_size} | gzip > subset_${r1_file} zcat ${r2_file} | seqtk sample -s${seed} - ${target_size} | gzip > ...