下面我们就GEO里面存放的数据进行分门别类的介绍,分首先是芯片数据,包括各种生物学应用的芯片,然后是高通量测序数据,包括二代三代测序数据。 1.1芯片技术 早期的生物信息学数据都是由芯片产生,2001年做两百多个mRNA表达谱芯片数据分析都可以发nature,虽然现在逐渐被NGS替代了,但是成本方面却还是它们的优点,所以仍然会...
统计学中随之引入了变异系数(coefficient of variation, CV)的概念,变异系数是指样本标准差除以均值再乘100%。变异系数不会受数据尺度的影响,因此常用来进行不同样本之间变异性的比较。 在实际的数据分析中,如果要比较不同数据集(均值和标准差都不同)之间的数值,通常会引入z score的概念,z score 的计算方法是用...
在生物信息学中,FASTA格式,是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。 在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。 fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式。 它要比上一小节介绍的FASTQ格式简明很多。 定义和示...
基因在生物信息学研究中具有中心地位,所以对于基因的命名也显得至关重要。 每个领域,每个地域,都有权威的科研单位,他们偏向于自己定义各种各样的基因命名系统,并没有一个统一的命名方式。 而且为了研究基因,还有产生探针捕获的技术,各个厂商的探针ID也是五花八门。 在疾病研究领域,也需要独特的ID。 一些功能数据库也...
生物信息学的重头戏就是处理各种各样的数据,第 @ref(sequencing) 章介绍了生物信息学主流数据产生方法,包括多种多样的芯片技术,二代测序技术和三代测序技术。 既然数据的来源是如此的丰富多样,而且指定标准的单位比较多,就必然会产生各种各样的数据存储形式来规范化交流,第 @ref(filetype) 章会详细介绍fastq,fasta,...