by:superqun一、流程概括RNA-seq的原始数据(raw data)的质量评估linux环境和R语言环境raw data的过滤和清除不可信数据(clean reads)reads回帖基因组和转录组(alignment)计数(count )基因差异分析(Gene DE…
为保证后续生物信息分析的准确性,首先对原始测序数 据进行过滤,从而得到高质量的测序数据(clean data)。 去除reads中的index+adapter序列;(测序片段组成:adapter+index+插入片段+adapter,会出现文库片段太短导致片段被测通或测序引物的位点仍在index左边,把index也测到) 剪切前去除5’端含有非AGCT的碱基; 修剪测序...
superqun原创 一、流程概括 RNA-seq的原始数据(raw data)的质量评估 linux环境和R语言环境 raw data的过滤和清除不可信数据(clean r...
RNA-seq(转录组学)的分析流程和原理 在开始详细讲解RNA测序之前,我们先来了解一下它的基本步骤:1.建库:提取RNA,富集mRNA或消除rRNA,合成cDNA和构建测序文库。2.测序:然后在高通量平台(通常是Illumina)上进行测序(每个样本测序reads在DNA测序中,读数是对应于单个DNA片段的全部或部分的碱基对(或碱基对概率)...
ILLUMINACLIP:/home/barnett/miniconda3/share/trimmomatic-0.39-1/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:0 SLIDINGWINDOW:4:15 MINLEN:36; done 这里注意一下你的双端fastq文件名需要修改成自己文件的名字。不是很建议把raw data和clean data放在同一位置。个人推荐重新建立一个02_clean_data保存...
总共得到47.25G的raw data和46.80 G的clean data,两个样本的平均reads覆盖深度24.99× 至26.20×。clean data比对基因组后,可育和不育pool大约鉴定到2,813,972个SNPs。通过计算SNP index和ΔSNP index发现候选基因可能位于3号染色体(C3)上的3个不同基因组区间 (35.40‒35.68,35.74‒35.75和45.34‒46...
获得过滤后的Clean Data。此时可再次运行一次FastQC软件查看过滤后的数据质量。 PART3 采用Hisat2软件与参考基因组进行比对分析 获得Clean data后,即可与参考基因组进行比对分析,我们采用Hisat2软件(http://ccb.jhu.edu/software/hisat2/index.shtml)进行短reads的比对,以人类参考基因组为例。
wkd=/home/meiling/baiduyundisk/RNA-seq #设置工作目录 ls $wkd/rawdata/*gz | xargs fastqc -t 2 multiqc ./ 得到结果如下: ├── [4.0K] multiqc_data │ ├── [2.1M] multiqc_data.json │ ├── [6.8K] multiqc_fastqc.txt │ ├── [2.2K] multiqc_general_stats.txt ...
这个时候,还可以使用 fastqc软件看看raw和clean的fastq软件的测序质量情况。 hisat 比对 cd~/rna/test/cleanData indexPrefix=/home/data/server/reference/index/hisat/hg38/genome ls *gz|cut -d"_"-f 1|sort -u |whilereadid;do nohup hisat2 -p 1 -x$indexPrefix-1${id}*_1_val_1.fq.gz -2...
得到的结果是原始表达矩阵raw counts然后再处理才得到clean data 代码语言:sh 复制 ## 定义输入输出文件gtf=/teach/database/GRCh38.104/Homo_sapiens.GRCh38.104.chr.gtf.gz featureCounts-a$gtf-o./featureCounts/all.count.txt-p-T6-texon-ggene_id ./hisat2/*.sorted.bam# 得到表达矩阵# 处理表头,要换成...