# 根据质量进行简单过滤,碱基质量低于q20的被小写 seqtk seq -aQ64 -q20 in.fq > out.fa 2. 得到互补序列 seqtk seq -r in.fq > out.fq # 此处的输入/输出文件也可以是fa格式 3. 根据reads ID 提取 reads seqtk subseq in.fq name.id > ...
根据ID从FASTA文件中批量提取序列是做序列分析常做的事情,有网友让我帮忙从11万条中挑选7万条,我自己写写了一个,太慢了;后来发现Biopython官方文档里面“Cookbook – Cool things to do with it”第一件事就是做这个事情的,后来我又学习了“冷月”小伙伴在知乎的帖子,稍微改写了一下,其实就是ctrl+c和ctrl+v...
seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq 2.sample 随机抽样 seqtk sample -s100 Sample_R1.fq.gz 10000 #可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 3.subseq 提取序列 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk ...
seqtk sample -s100 Sample_R1.fq.gz 10000 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 案例3:subseq 提取序列 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk subseq in.fa reg.bed > out.fa 根据输入的name list,提取相应名称序列: ...
-g 序列文件,即GFF/GTF文件第一列ID对应的序列文件。 -i 丢弃掉内含子大于的转录本(mRNA/transcript) -r 起始和终止位置,填写示例100.10000即为输出与100到10000有重叠的所有转录组,也可以限制序列ID及链,填写示例:+Chr1:100..10000。 -R 丢弃掉此范围的转录本,与-r相反。
宏基因组的数据文件很大,难以用个人电脑完成分析,用Seqtk软抽取少量序列进行分析,以达到管中窥豹的目的 安装 使用 抽取1000万条序列。 根据序列ID提取fasta序列
seqtk sample-s100 Sample_R1.fq.gz10000# 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 3. subseq 提取序列 代码语言:javascript 复制 # 根据输入的bed文件信息,将固定区域的序列提取出来: ...
09. 根据reg.bed文件中的区域将对应序列转换成小写; seqtk seq -M reg.bed in.fa > out.fa 10. 直接对FASTQ文件进行序列随机提取10000 reads,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应; seqtk sample -s100 read1.fq 10000 > sub1.fq ...
2.得到反向互补序列 seqtk seq -Ar input.fastq > output.fasta 3.seqtk comp: 得到fastq/fasta 文件的碱基组成 (输出格式:序列id 序列长度 A C G T ) seqtk comp in.fa > out.fa 4.subseq 根据name.list(不带>符号)提取子序列 -l可设定输出的每行长度 ...
# 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。 3. subseq 提取序列 # 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk subseq in.fa reg.bed > out.fa # 根据输入的name list,提取相应名称序列: ...