本文介绍如何使用lastz软件对两条序列进行比对并分析SNP和indel的操作。首先,需要通过conda安装lastz和multiz。选择拟南芥的基因组作为测试案例。运行脚本,四个主要参数依次为输出文件夹、比对的目标基因组序列id、查询的基因组序列id、以及需要比对的基因组。注意,目标和查询序列id不能相同,否则会出现错误。比对结果
第一个位置参数是输出文件夹 第二个位置参数是需要比对的基因组序列id (target) 第三个位置参数是需要比对的基因组序列id(query) 第四个位置参数是需要比对的基因组(target) 第五个位置参数是需要比对的基因组(query) (2 3 位置参数序列id不能是一样的,如果两个序列id一样就会报错,我在这里搞了好长时间) ...
这种多重比对(multiple hit)的处理对SNP、indel以及CNV等的检测有重要影响。通常检测SNP或INDEL的时候要使用高质量的比对(alignment),即比对质量值大于 0 或更高。对比对参考基因组上的有效数据(去除重复后)进行覆盖度的统计。使用samtools、picard软件和GATK软件对bam文件进行排序,去重复和校正坐标。
Snippy在单倍体参考基因组和您的NGS序列读数之间找到SNP。它将找到替换(snps)和插入/删除(indels)。一台计算机上将使用尽可能多的CPU(已测试64核)。在设计时考虑到速度,并在单个文件夹中生成一组一致的输出文件。然后,它可以使用相同的参考来获取一组Snippy结果,并生成核心SNP比对(并最终生成系统树)。 环境搭建:以...