结果文件 purged.fa:去冗余后的基因组结果 dups.bed: 第一列为序列ID,即将被删除,如果序列中含N,则会被拆成ID_1、ID_1、ID_3等多挑contig 第二列第三列为其实终止位置,第四列为类型,第五列为比对到的序列ID 3.参考 De novo组装#04 | 基因组去冗余(purge_dups) 使用Purge_dups去冗余序列 ...
dups.bed里的第四列就是每个contig的分类信息,分为"JUNK", "HIGHCOV", "HAPLOTIG", "PRIMARY", "REPEAT", "OVLP" 这6类,其中只有 purge_dups可以先以默认参数进行运行,如果结果不理想,可以调整如下参数 -f默认是.8, 根据80%区域的覆盖度来对contig进行分类。例如80%的区域都低于5x,将该序列定义为JUNK。
4#.最后就是根据dups.bed文件里的分类信息,从原始的基因组种提取出Purged基因组( PGet purged primary and haplotig sequences from draft assembly. ) ## 这一步输出两个结果 purged.fa 和 hap.fa,前者就是我们的最终结果 /newlustre/home/jfgui/Wangtao/software/purge_dups/bin/get_seqs dups.bed assembl...
~/opt/biosoft/purge_dups/bin/get_seqs dups.bed $asm 这里的purged.fa就是最终结果,junk, haplotig和duplication都会在hap.fa中。 可选步骤: 将alternative assembly和输出度hap.fa进行合并,然后运行上面四步,得到的purge.fa就是新的alternative assembly,而输出的hap.fa则是junk或overrepresented序列。 PS: 能...