之前写的的CHIP-seq和RNA-seq很多练习的数据都是从GEO数据库下载的。但是从来没有细致的了解过GEO这个数据库。趁着还没复工,再多学一点新知识~这次的笔记是生信技能树的视频笔记,视频是对公众开放的,地址如下: 生信技能数b站视频地址:https://space.bilibili.com/338686099/channel/detail?cid=95141 ...
DATA PROCESSING PIPELINE:数据处理步骤,参考基因组(NGS基础 - 参考基因组和基因注释文件)详细信息。 PROCESSED DATA FILES:RNA-seq或者ChIP-seq等实验,通常需要提供一些额外的数据文件,比如基因表达量,基因信号文件和MD5值(MD5值:在Linux下可以使用命令md5sum filename来获取;Windows下可以在网上搜索一个MD5值计算工具,...
为了让大家更好的利用公共数据库中的数据,所以需要大家对自己上传的数据进行充分的注释,geo官方给定的了一个metadata spreadsheet (template and examples),里面包含了RNA-seq和ChIP-seq数据的模板,可以根据模板填入。填完之后就随数据同时上传即可。 11)待所有数据上传完成后,就可以进入最后一步,Notify GEO。 然后填入...
2)processed data files:一个至多个文件,是根据你的原始文件进行分析所提取得到的一些数据;该部分经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。比如RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容...
GEO数据库简介 GEO是美国国家生物技术信息中心(NCBI)提供的一个公共数据库,旨在存储、共享和分析基因表达和基因组数据。研究者在GEO中提交的高通量测序数据包括但不限于RNA-Seq、ChIP-Seq、Methyl-Seq等多种类型。 数据获取 首先,我们需要获取GEO数据库中的数据。在R中,可以使用GEOquery包来获取数据。安装此包并加载...
比如RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。 3. raw data files:一个至多个文件,这是你测序或芯片获得的原始文件。测序的原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/...
Expression Omnibus)数据库主要存储基因表达和其他分子profilings数据,包括微阵列、RNA-seq、ChIP-seq等...
GEO:Submit RNA-seq, ChIP-seq, and other types of gene expression and epigenomics datasets. 也就是我们常用的基因表达数据,这里可以上传处理后的数据,如count和TPM,FPKM等 BioProject & BioSample:这是NCBI的核心组织架构,一篇文章就是一个BioProject,一个project里可以包含多个BioSample ...
🔶测序数据(RNA-seq) 测序数据的标准化方法无非就是,TPM、RPKM/FPKM 这三者(准确来说是两者) 的区别目前的讨论还较多,没有人能给出一个准确且清晰的定义,以及使用情况。缺少有力的参考资料和推算过程来说明他们的区别。 🤔后记: 我查阅了大量关于基因芯片和RNA-seq标准化的资料,目前中文网站上很少有相关的资...
比如RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。 3. raw data files:一个至多个文件,这是你测序或芯片获得的原始文件。测序的原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/...