获得并保存表达矩阵用于后续生信分析 行为基因名,列为样本名。 ⏩如果需要下载临床信息数据,可用如下代码操作保存 我们需要的表达矩阵文件以及临床信息保存在我们R设置的目录下,至此整个GEO数据库数据下载并整理成表达矩阵的过程已完成。
library(AnnoProbe)#用于下载GEO数据的包library(GEOquery)#从GEO数据集中提取表达矩阵或临床信息的包library(tidyverse) 2.利用AnnoProbe下载GEO数据库中的数据 以GSE14520数据系为例: 代码语言:javascript 复制 gset=AnnoProbe::geoChina('GSE14520') 运行后,会得到一个叫做“gset”的对象,它是”list“数据类型 3....
在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习。总得来说,从GEO数据库里面得到感兴趣数据集的表达矩阵分成两类,最简单的就是直接下载作者归一化好的表达矩阵咯,比较麻烦的就是下载最...
一般来说,GEO数据库的文件是没有必要高速下载的,因为里面存放的都是表达量矩阵等,文件非常小,通过浏览器点击下载的方式就算是网络很慢,等等也会成功。 但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov...
其中行为基因名,列为样本名。此时,数据已准备好用于后续的生信分析。如果需要下载额外的临床信息数据,可以通过编写特定的R代码实现数据的保存。最终,所获取的表达矩阵文件与临床信息数据都被保存在R环境设定的目录中,整个从GEO数据库下载并整理至表达矩阵的过程至此完成。
##Expr为表达量数据,batch后面接批次信息,data包含样本的生物学差异和批次信息, #mod接的是一个矩阵...
然而,若需下载大量文件,如成百上千个,建议使用代码进行批量下载。随着单细胞技术的普及,表达量矩阵文件体积也变得相当大,例如:ncbi.nlm.nih.gov/geo/qu... ,可看到文件大小达到9.3 Gb:若以常规速度下载,可能需要两三天时间:借助aspera的高速下载:首先自行参考:使用ebi数据库直接下载fastq测序...
GEO数据库可以说是大家使用频率贼高的数据库啦!那它里面的数据怎么下载大家知道嘛!今天给大家展示一种快速获取它的表达矩阵和临床信息的方法! 话不多说!咱们直接开始! GEO编号获取 在GEO数据库中,你找到了你需要的数据,接下来怎么办嘞!下载它!处理它!
不是我们写的脚本,而且没有测试文件,很难发现错误,抱歉
借助aspera的高速下载 首先自行参考:使用ebi数据库直接下载fastq测序数据 , 配置好aspera软件即可,然后要详细的阅读GEO数据库的官方文档 ncbi.nlm.nih.gov/geo/in ibm.com/support/pages/d 需要构建的命令如下所示: conda activate download ascp -v -k 1 -T -l 200m \ -i ~/miniconda3/envs/download/et...