| seqkit sample -p 0.1 \ | seqkit head -n 1000 -o sample.fa.gz # 设置随机种子,方便重复结果: -s 11 zcat hairpin.fa.gz \ | seqkit sample -p 0.1 -s 11 |head # 抽样后打乱序列 :seqkit shuffle zcat hairpin.fa.gz \ | seqkit sample -p 0.1 \ | seqkit shuffle -o sample.fa.gz 1...
Usage:seqkit rmdup[flags]Flags:-n,--by-name by full name instead of just id-s,--by-seq by seq-D,--dup-num-filestringfile to save number and list of duplicated seqs-d,--dup-seqs-filestringfile to save duplicated seqs-h,--help helpforrmdup-i,--ignore-caseignorecase sample zcat hai...
(3) sample子文件抽样 使用seqkit sample [flags]命令按比例或数量对原始序列文件执行抽样,获取子文件。
10.合并两个序列,通常我们Illunima双端测序会得到两个文件R1.fq.gz和R2.fq.gz,这个命令就是帮助怎么完美实现两两配对 $seqtk mergefaUsage: seqtk mergefa [options] <in1.fa> <in2.fa># 合并两个的FASTA/Q filesOptions: -q INT quality threshold [0]-i take intersection#取交集-m convert to lowe...
你想把你的超大文件拆分成一个个小文件方便处理吗?用它! seqkit split2 -p 10 *.fastq# 示例为将文件拆分为10份seqkit split2 -l 1G *.fastq# 示例为按照大小拆分,每个文件最多1G # 如果不想拆分,而只是取部分序列的话,可以用seqkit sample参数操作 ...
注意:双端序列在两个文件中的顺序最好是一样的,否则会消耗大量内存去匹配。 seqkit pair -1 C1_1.fq.gz -2 C1_2.fq.gz -O result # -u 输出未匹配上的文件 seqkit pair -1 C1_1.fq.gz -2 C1_2.fq.gz -O result -u -f sample 按数量或比例对序列进行抽样。
pair 匹配双端序列文件 range 打印一个范围内的序列 rename 重命名重复序列ID replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 ...
(3) sample子文件抽样 使用seqkit sample [flags]命令按比例或数量对原始序列文件执行抽样,获取子文件。
你想把你的超大文件拆分成一个个小文件方便处理吗?用它! seqkit split2 -p 10 *.fastq# 示例为将文件拆分为10份seqkit split2 -l 1G *.fastq# 示例为按照大小拆分,每个文件最多1G # 如果不想拆分,而只是取部分序列的话,可以用seqkit sample参数操作 ...
生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计 生信软件9 - 多公共数据库...