将fastq转换成fasta: seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa 得到反向互补序列: seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq 2.sample 随机抽样 seqtk sample -s100 Sample_R1.fq.gz 10000 #可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取...
将fastq转换成fasta: seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa 将fastq序列做反向互补分析: seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq 案例2:sample 随机抽样 seqtk sample -s100 Sample_R1.fq.gz 10000 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致...
sample: 使用的 seqtk 对应的 sample 命令, 进行reads随机提取; -s100: 设定随机数种子为100,类型为整数 (随机数种子要相同,确保 fastq 的ID对应) read1.fq/ read1.fq: 输入的 R1_fastq / R2_fastq 文件(可输入.gz压缩文件, 但输出结果是非压缩...
zcat input.fastq.gz|paste - - - - | cut -f 4 | fold -w 1 | wc -l 由于reads的长度一般是固定的,一般是150bp,可以一下计算在指定数据量情况下,需要保留多少条reads,然后就可以用seqtk工具去进行截取了: seqtk sample -s100 input.fastq.gz reads数(如:1500) 或者 需要保留的数据比例(如:0.5) ...
或者直接抽取固定的read 条数, 如抽取1百万条reads: 1seqtk sample -s 11 $dir/read1.fq.gz1000000|gzip >sub_r1.fq.gz2seqtk sample -s 11 $dir/read2.fq.gz1000000 |gzip> sub_r2.fq.gz 这个工具还可以根据比对的bam文件抽取子集,用法类似。
seqtk sample -s100 Sample_R1.fq.gz 10000 # 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 3. subseq 提取序列 # 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk subseq in.fa reg.bed > out.fa ...
2. sample 随机抽样 代码语言:javascript 复制 seqtk sample-s100 Sample_R1.fq.gz10000# 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 3. subseq 提取序列 代码语言:javascript 复制 # 根据输入的bed文件信息,将固定区域的序列提取出来: ...
seqtk sample -s100 read2.fq 0.85 > sub2.fq 如果FASTQ为压缩文件,也可以直接提取,并且在随机提取之后使用gzip重新生成压缩文件; seqtk sample -s100 read1.fq.gz 10000 |gzip > sub1.fq.gz seqtk sample -s100 read2.fq.gz 10000 |gzip > sub2.fq.gz ...
可以按比例截取(如抽出比例为0.014的reads) seqtk sample name_1.fq.gz 0.014 > name_new_L1_1.fq 也可以按reads条数截取(建议小的fastq文件这样操作,如果reads过大占用内存也会过大,当需要操作的是数据量较大的fastq时,建议采取按比例截取的方式)
seqtk sample -s100 read1.fq 10000 > sub1.fq seqtk sample -s100 read2.fq 10000 > sub2.fq -s后面跟随机seed,对于双端测序的reads,必须使用一样的seed,不然得到的sample无法正确pair 对fq/fa文件中的reads进行开头/末尾的trim seqtk trimfq -b 5 -e 10 in.fa > out.fa ...