Bulk RNA-seq 分析的一个重要任务是分析差异表达基因,我们可以用omicverse包 来完成这个任务。对于差异表达分析而言,首先,我们可以先将 gene_id 改为 gene_name。其次,当我们的数据集存在批量效应时,我们可以使用 DEseq2的 SizeFactor 对其进行归一化,并使用 wilcoxon 的 t 检验来计算基因的 p 值。在这里,我们...
Bulk RNA-seq 分析的一个重要任务是分析差异表达基因,我们可以用 omicverse包来完成这个任务。对于差异表达分析而言,首先,我们可> 以先将 gene_id 改为 gene_name。其次,当我们的数据集存在批量效应时,我们可以使用 DEseq2的 SizeFactor 对其进行归一化,从统计学上,使用 wilcoxon的秩和检验或者 t-test来计算> ...
Scanpy和Seurat管理数据的方式有很大的不同,需要预先过滤掉数据集中不存在的细胞周期基因,以避免错误。 # .strip()移除字符串头尾指定字符(默认为空格或换行符)或字符序列cell_cycle_genes = [x.strip() for x in open('./data/re...
在这里,我们指定4-3和4-4为实验组,1--1,1--2为对照组,我们设定method为DEseq2也是支持的,不过流程可能会有一些区别,我们放到下一期讲。 treatment_groups=['4-3','4-4']control_groups=['1--1','1--2']result=dds.deg_analysis(treatment_groups,control_groups,method='DEseq2')result.head() Fi...
RNA-Seq reads 由于不包含内含子,所以来自外显子边界处的reads被重新回基因组时,会被中间的内含子分开,这种情况叫做 splice alignment。 将reads 比对到参考基因组,推荐使用Hisat2或STAR 。 STAR需要更大内存,运行时间也更长。准确性相差不大。 #02比对、转换和建立索引 #双端测序 for i in `cat $RAWDATA/...
注意:读入的数据进行转置,是因为使用pydeseq2包进行分析时,count矩阵需要的是行为样本,列为基因名称,和R语言中的DESeq2包刚好相反。 读入样本信息文件: 代码语言:javascript 复制 condition_file="data/matedata.csv"condition_df=pd.read_csv(condition_file,index_col=0)condition_df.head() ...
⑵DEseq2输入矩阵的生成 从StingTie官网http://ccb.jhu.edu/software/stringtie/index.shtml?t=manual#deseq上下载一个Python脚本(prepDE.py)来直接从StringTie生成的文件(使用-eB参数运行)中提取此Read计数信息。 在父文件夹中运行命令:$perl prepDE.py ...
Scanpy是一个Python工具包,用于处理和分析单细胞RNA-seq数据。Scanpy包含了许多细胞轨迹推断方法,如PAGA和DPT。Scanpy的优点是功能丰富、易于使用,但其计算效率受限于Python环境。 3.3 Seurat Seurat是一款广泛使用的R包,用于处理和分析单细胞RNA-seq数据。Seurat提供了许多轨迹推断方法,如UMAP和PCA。Seurat的优点是功能齐...
Usage: python construct_DESeq2_input.py \ --counts <FULL_PATH_TO_OUTPUT_COUNT_TABLE> \ --info <FULL_PATH_TO_SAMPLE_INFO_FILE> \ --out <FULL_PATH_TO_OUTPUT_DIRECTORY> Suggested citation: this repository DEG_analysis20181107.R This script performs differential gene expression analysis for ...
创建一个python2的环境管理: conda create -y -n rna_seq python=3 # -y 自动确认 # -n 新环境名字 # python=3 新环境中python=3 激活和退出环境 conda activate <conda_name> #激活某环境 conda decativate <conda> #取消激活某环境 conda安装软件 ...