二、构建索引Index Hisat2和STAR在比对时都需要索引文件,对于人及小鼠及常用模式生物,Hisat2官网提供了相应的索引文件,下载后就能用,对于非模式生物,需要自己建立索引文件。 区别于bowtie2的索引只有基因组序列信息,Hisat2建立索引时,应该把转录组信息加进去,此外,Hisat2还支持将SNP信息加入到索引中,这样比对的时候...
HISAT2使用了叠加的比对算法,全局比对整个基因组建立index,辅助成千上万个小的局部index。 STAR采用了种子和扩展的方法。 首先需要构建参考基因组索引用于下一步的比对。HISAT2提供了两个脚本用于从基因组注释GTF文件中提取剪接位点和外显子位置,基于这些特征,可以使 RNA-Seq reads 比对更加准确。建议直接在HISAT2...
来自官网:为了用整个index代表整个基因组,HISAT2 用小的index覆盖了整个基因组,每个index覆盖了56 Kbp的范围,覆盖整个人类基因组需要55,000 indexes,这些index结合其他策略可以快速准确的比对序列。 写在前面index问题2:如何获得index 1 HISAT2官网下载 人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。
HISAT2 在建立 index 时极耗内存,完整的 index 在建立时需要基因组大小的 60 倍容量的内存(人类基...
定义三个文件夹:index索引、inputdir输入文件夹、out输出文件夹。这一步需要激活conda环境。 单个样本比对 ## 单个样本比对,步骤分解index=/home/t_rna/database/GRCh38.104/Hisat2Index/GRCh38.dnainputdir=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore/outdir=$HOME/project/Human-16-Asthma...
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2(官网https://ccb.jhu.edu/software/hisat2/index.shtml),并且搞懂它的用法。直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。 接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入...
二、构建索引Index Hisat2和STAR在比对时都需要索引文件,对于人及小鼠及常用模式生物,Hisat2官网提供了相应的索引文件,下载后就能用,对于非模式生物,需要自己建立索引文件。 区别于bowtie2的索引只有基因组序列信息,Hisat2建立索引时,应该把转录组信息加进去,此外,Hisat2还支持将SNP信息加入到索引中,这样比对的...
二、构建索引Index Hisat2和STAR在比对时都需要索引文件,对于人及小鼠及常用模式生物,Hisat2官网提供了相应的索引文件,下载后就能用,对于非模式生物,需要自己建立索引文件。 区别于bowtie2的索引只有基因组序列信息,Hisat2建立索引时,应该把转录组信息加进去,此外,Hisat2还支持将SNP信息加入到索引中,这样比对的时候...
我用的软件是HISAT2,首先要建立index。有两种选择,一是将四个荧光蛋白序列加入到小鼠基因组的fasta文件里,这样可以一次性全读出来;二是就用这四条序列建个index。我选择了第二种,将四条序列加到一个fasta文件中,大致就是下图这样。 然后就hisat2 build ,index建好后就比对,具体指令可以看相应的文章。
官网提供了一些物种的index文件,如人类、小鼠 基因注释:Caenorhabditis_elegans.gtf 参考基因组:Caenorhabditis_elegans.WBcel235.dna.toplevel.fa #加入-ss,-exon,需要消耗上百G的内存,不加也可,具体区别不太清楚 hisat2_extract_splice_sites.py Caenorhabditis_elegans.gtf > Caenorhabditis_elegans.ss hisat2_extr...