with gzip.open(os.path.join(outdir,'matrix.mtx') +'.gz','wb') as mtx_gz: #创建一个读写文件'matrix.mtx.gz',用以将matrix.mtx拷贝过去 shutil.copyfileobj(mtx_in, mtx_gz) os.remove(os.path.join(outdir,'matrix.mtx'))## ...save barcodes.tsv.gzbarcodesFile = pd.DataFrame(rna_c...
大部分情况下,我们是不需要用到这个需求,因为通常我们见到的表达量文件是下面这三个文件:barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz。大部分分析单细胞的软件都可以读取这个文件做分析,如果有些软件不行的话,你也可以用单细胞的三大R包Seurat、Monocle、Scater来读取转化需要的格式,曲线救国也是可以的。 ...
一般来说,我们下游的Seurat分析的输入文件会选择filtered_feature_bc_matrix中的文件,而不选择raw_feature_bc_matrix下的文件,前者是经过过滤的,去掉了低质量的信息。进入filtered_feature_bc_matrix文件夹会发现它下面包含3个文件:分别是barcodes.tsv.gz、features.tsv.gz和matrix.mtx.gz。 barcodes.tsv.gz AAACCC...
这还只是存进内存,还没计算特别耗内存的CCA或者harmony。如果癌细胞,再算个CNV,内存爆表。
此贴终结,拿到新电脑试了,可以导入,五十万个细胞的seurat对象 15.7个G,挑了其中1.几个G的细胞...
! rm example_PBMC/pbmc3k_filtered_gene_bc_matrices.tar.gz 加载数据并质控 adata = sc.read_10x_mtx( 'example_PBMC/filtered_gene_bc_matrices/hg19/', var_names='gene_symbols', cache=False) adata.var_names_make_unique() sc.pp.filter_cells(adata, min_genes=200) # filter cells with fewer...
BiocManager::install("DropletUtils")# 安装 R 包library(DropletUtils)# 加载 R 包# seurat 对象导出 barcodes.tsv.gz、features.tsv 和 matrix.mtx.gz 至 output 文件夹write10xCounts("output/",seurat_ob[["RNA"]]@counts,version="3")
tar-zxvf example_PBMC/pbmc3k_filtered_gene_bc_matrices.tar.gz!mv filtered_gene_bc_matrices example_PBMC!rm example_PBMC/pbmc3k_filtered_gene_bc_matrices.tar.gz 加载数据并质控 adata=sc.read_10x_mtx('example_PBMC/filtered_gene_bc_matrices/hg19/',var_names='gene_symbols',cache=False)adata....
50个单细胞,服务器才能吃得下,我64g只能顺利分析10左右的单细胞数据。你这个有概率能读下来,然后。