Brain RNA-Seq数据库:web.stanford.edu/group/ 应用1:输入基因名可查询该基因在不同细胞类型的表达情况,例如输入TPPP,点击Search得到结果与Cell文章一致: 众所周知,Iba1是小胶质细胞的特异性标志物,在GeneCards(genecards.org/ )输入Iba1 可知其基因名为Aif1。 在Brain RNA-Seq数据库查询Aif1,发现Aif1特异性...
通过这张图展示的是 GEO数据库中的 RNA-seq数据与芯片数据积累随时间的变化,很显然测序数据从2015年开始就已经超过了芯片数据的累积 (生信宝典注:这里没有统计物种信息,芯片能应用的物种少,测序能应用的物种多。现在临床数据分析还是基于芯片的数据量更大一些,有兴趣一起易生信GEO/TCGA专题课程 - 挖掘公共数据...
案例1: 基于RNA-seq数据构建中国最大人群的脑胶质瘤免疫组库数据库[3]中国脑胶质瘤基因组图谱计划(CGGA,Chinese Glioma Genome Atlas)拥有脑胶质瘤相关的最大规模的RNA-seq数据,以及匹配的临床和基因型信息。为探究中国人群脑胶质瘤免疫组库特征,本研究纳入了CGGA的913个脑胶质瘤患者RNA-seq数据,并根据IDH1/2...
下载下来的文件打开内容如下,可以看到新版TCGA的counts文件的名字不再是带有htseq.counts.gz后缀的压缩文件,变成了star_gene_counts.tsv为后缀的文本文件。 还需要下载所有的包含表达谱数据的star_gene_counts.tsv文件。点击Download, 点击下拉框中的Cart。会下载一个压缩文件。 解压后会是44个文件夹 每个文件夹里面...
TCGA数据库中RNA-Seq数据类型解析:HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ TCGA数据库中应该下载哪种表达量数据HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ 现在常用的基因定量方法包括:RPM, RPKM, FPKM,TPM;这些表达量的主要区别是:通过不同的标准化方法为转录本丰度提供一个数值表示,以便于后续差异分析。
在集群里找到原始fastq数据 - 构建fastq目录结构 最后提交SRA - 填表[Each file must be listed in the SRA metadata table you uploaded.],参考历史记录,输入fastq文件名,然后用ascp上传,有命令指引 最终上传数据时有问题,显示远程服务器磁盘空间不足【偶尔】网站上显示是NCBI问题,过几天再看看。
1. STRING 数据库基本介绍 官网: STRING: functional protein association networks (string-db.org)R语言版本:Bioconductor - STRINGdb STRING是一个已知和预测的蛋白质-蛋白质相互作用的数据库。相互作用包括直接(物理)和间接(功能)联系;它们源于计算预测、生物之间的知识转移,以及其他(主要)数据库聚合的交互作用。
该数据库(Plant Intron-Splicing Efficiency Database , PISE)整理了来自SRA,GEO,DDBJ及ENA中包括拟南芥(25,283)、玉米(17,789)、水稻(10,710)和大豆(3,974)在内的四个物种的超 57,000 个植物公共 RNA-seq 文库,涵盖了这四个物种的约160 万个内含子。在该工作中,作者使用统一的流程对所有文库...
RNA-seq⽅法原理、数据分析、数据库及⼯具介绍RNA-seq⽅法原理、数据分析、数据库及⼯具介绍 能够对RNA序列数据进⾏分析的新⽅法可以让我们从头开始构建转录组。对RNA进⾏测序⼀直以来都被认为是⼀种发现基因的有效⽅法,⽽且这种⽅法还被认为是对编码基因以及⾮编码基因进⾏ 注释的⾦标准...
各种大型计划产出的RNA-seq数据资源已经非常丰富了,但是大家都想把多个数据库联合起来分析,就不得不面对批次效应这个问题,所以UCSC团队就使用统一的流程把这些数据重新处理了,在亚马逊云上,一个样本花费1.3美元。 发表在:Nature Biotechnology publication:https://doi.org/10.1038/nbt.3772 ...