例如,如果基因组已知,则应该可以通过将RNA-seq reads比对到基因组上来鉴定转录本。相比之下,对于基因组未知,首先通过De novo将reads拼接成contigs,然后将contigs比对到转录组上来。对于注释良好的基因组,如人类基因组,会基于现有注释参考转录组分析RNA-seq数据。 1.实验设计 成功进行RNA-seq研究的先决条件是转录组数据...
与之前的Join exon策略相比,split reads策略速度较慢,因为它需要映射比reads更短的种子。然而,这种策略不依赖于先前的外显子注释,并且可以发现新的外显子甚至新基因。 事实上,目前常见的RNA-Seq工具通常将这两种策略结合在一起,以平衡灵敏度和速度。例如,约翰霍普金斯大学、伯克利大学和哈佛大学共同开发的TopHat2工具...
出现基因组multireads主要是由于旁系同源基因的重复序列或共有结构域。当比对到基因组上时,多比对reads通常占比对结果的较大一部分,不应该被丢弃。当参考序列是转录组时,多比对更频繁地产生,因为在基因组上唯一比对的reads将同样很好地比对到共享外显子的所有基因转录本类型上。基因组或转录组比对,转录本鉴定和定量成...
它采用独特的分段式比对策略,优化了对基因组的多处比对。具有高效的多线程支持,适用于大规模测序数据。STAR 的开发得到了美国国立卫生研究院国家人类基因组研究所的支持。 2015 HISAT Tophat 作者团队在 2015 年开发了 HISAT,一种基于 Hierarchical Graph FM Index 的 RNA-Seq 比对工具,能够迅速、准确地处理大规模...
科学家根据研究对象和研究目的计划实验并采用不同的分析策略。例如,如果已经有研究对象的基因组序列,就可以通过将RNA-seq reads与基因组进行比对来识别转录本。相反,对于没有已知基因组序列的生物体,可以通过将reads de novo组装成contigs,然后将这些contigs映射到转录组来进行定量。对于已经被充分注释的基因组,例如人类...
低count和(或)基因的细胞可对应静止细胞群,高count的细胞体积可能更大。事实上,细胞之间的分子计数可能存在强烈差异(参见项目 github 的案例研究)。因此,当单变量阈值决策时,应联合考虑细胞 QC 变量(图 2D),这些阈值应尽可能设置为允许的,以避免无意中过滤掉活细胞群。考虑到多变量细胞 QC 的依赖性,筛选模型可能...
2.1算法概述 DART的一个独特功能就是它我们采用分区策略来处理读序列和参考基因组之间的匹配和不匹配。DART分隔读取对齐分成两组:简单区域对(缩写为简单对)和正常区域对(正常对),其中所有简单对具有完美对齐(完全匹配),并且正常对需要无间隙或间隙对齐(由于不匹配或indel)。简单对和正常对都称为片段对。一旦片段对被...
为解决数据可比性问题,现有 scRNA-seq 分析算法常采用每 10K 计数(CP10K)归一化方法,该方法虽能消除技术因素影响,但同时也去除了由生物变化引起的转录组大小差异,导致基因表达水平出现不均衡的缩放效应,影响了不同细胞类型间差异表达基因(DEGs)的准确识别。 批量RNA 测序虽不能提供单个细胞的表达谱,但具有成本低、...
基因组中不同基因类别比例的扇形图(左;沙门氏菌肠道亚种转录组中的RNA分子。鼠伤寒血清型(上)和人类(下)。 细菌扇形图的面积按指示因子放大;未放大的扇形图反映了沙门氏菌基因组/转录组与人类基因组/转录组的相对大小。用于推断细胞状态的信息性转录物类(mRNAs和调控性非编码RNA)突出显示(*)。
究其原因,一方面是测序成本始终居高难下,另一方面,多组学数据 (RNA+ATAC+VDJ 等) 在技术和费用上更具挑战性,导致不少团队只能在小规模或单一组学上开展研究。由此形成的‘数据天花板’,难以支持对复杂生命系统的深入解析。 中国科学院北京基因组研究所 (国家生物信息中心) 蒋岚课题组此次在 Nature Methods 发表的...