Contig是reads拼成的连续的DNA片段,连续表达一个gene。通过双端测序的contig可确定contig之间的关系得到scaffold,Scaffold是reads拼成的有gap的DNA片段。理想情况下,一条染色体用同一个scaffold的表达。整个genome存在很多零碎片段,可舍弃。因为duplication产生很多overlap。 N50,L50和NG50是评价genome assembly的quality的标准,...
fasta { "Contig Stats": { "L10": 1, "L20": 3, "L30": 6, "L40": 9, "L50": 13, "N10": 14612419, "N20": 12596737, "N30": 10356262, "N40": 7972914, "N50": 6039544, "gc_content": 32.21673534307239, "longest": 15111501, "mean": 323711.75977011496, "median": 67267.0, "sequ...
如果中间有gap,但是可以知道gap的 长度,这样的序列就叫做scaffold, 即脚手架(非连续)的意思。然后把contig和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候 ,那一条contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。很明显这个数值越大说明组装的质量越好。 20分享举报您可能...
(组装1).assembled the short reads:得到pair-end短reads,overlap(比对效果好,没有模糊repeat)后获得contig;因为没有使用long insert-size paired-end libraries(因为long insert-size paired-end libraries会积累错误序列的overlap),所以我们得到很好contig(由n50长度可知) 因为长序列会积累错误序列的overlap,所以短序列...