5、采用Picard提取junction文件 # cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids # java -jar /path/to/file/picard.jar FilterSamReads I= Seq_Data_ChimericAligned.sortedByCoord.out.bam O=hv-Seq_Data-Chimeric.out.bam READ_LIST_FILE= Seq_Data.junction.ids FILTER=inc...
4、采用Samtools提取Viral reads # samtools view -b Seq_Data_ChimericAligned.sortedByCoord.out.bam chrHBV > Seq_Data_Aligned.sortedByCoord.out.bam 5、采用Picard提取junction文件 # cut -f 10 Seq_Data_ChimericChimeric.out.junction > Seq_Data.junction.ids # java -jar /path/to/file/picard.jar ...
下游分析:下游分析就非常的多样化了,最基本的有差异表达分析、各种数据库的基因注释、富集分析、WGCNA、SNP、可变剪辑等等。 如果没有参考基因组,可以组装转录本然后直接定量,也会有基因表达量的数据。 下面推荐一款可以不需要会linux命令的分析软件TBtools,可以直接做RNA-seq分析,对初学者比较友好: 数据质控 有参的分...
案例1: 基于RNA-seq数据构建中国最大人群的脑胶质瘤免疫组库数据库[3]中国脑胶质瘤基因组图谱计划(CGGA,Chinese Glioma Genome Atlas)拥有脑胶质瘤相关的最大规模的RNA-seq数据,以及匹配的临床和基因型信息。为探究中国人群脑胶质瘤免疫组库特征,本研究纳入了CGGA的913个脑胶质瘤患者RNA-seq数据,并根据IDH1/2...
本文研究思路: 1) 收集公共RNA-seq数据,对数据质控;2)预测HPO表型关联和基因功能;3)对已知或未知致病基因进行排序;4)使用基因可测性评分来解释GADO的差异表现;5)HPO表型聚类;6)使用GADO预测致病基因,并做出验证;7)重新分析未解决案例,并与其他方法进行比较。
先看看大概长啥样,简洁干净清爽的界面,名字就叫SPAR ,不是那个SPA。全称:Small RNA-seq Portal for Analysis of sequencing expeRiments 分析公共数据集功能 这部分功能能帮助大家分析已有的 small RNA-seq数据集,这些数据集已经整合在一个数据库中了,分析非常常方便,下面可以演示下看看怎么操作的。
先看看大概长啥样,简洁干净清爽的界面,名字就叫SPAR,不是那个SPA。全称:Small RNA-seq Portal for Analysis of sequencing expeRiments 分析公共数据集功能 这部分功能能帮助大家分析已有的small RNA-seq数据集,这些数据集已经整合在一个数据库中了,分析非常常方便,下面可以演示下看看怎么操作的。
中游分析这个词是我杜撰的,用来强调表达矩阵构建过程并不简单。 0 前言 前几天Jimmy老师发了一篇我用这个技能一杯咖啡的功夫就挣了800块钱,讲了他帮一个粉丝从公共数据库中下载RNAseq原始数据,走完上游分析拿到表达矩阵的过程。我看到文章可高兴了,因为我也能挣这800块钱(其实是帮老板省这800块钱)。
一、DESeq2、edgeR、limma的使用 强烈建议查看官方说明书进行这三种差异分析的学习,链接在文章末尾给出。 注意,这三个包都需要输入counts进行分析,不能用tpm、fpkm等归一化后的数据。 承接上节RNA-seq入门实战(三):在R里面整理表达量counts矩阵和RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts...
通过这张图展示的是 GEO数据库中的 RNA-seq数据与芯片数据积累随时间的变化,很显然测序数据从2015年开始就已经超过了芯片数据的累积 (生信宝典注:这里没有统计物种信息,芯片能应用的物种少,测序能应用的物种多。现在临床数据分析还是基于芯片的数据量更大一些,有兴趣一起易生信GEO/TCGA专题课程 - 挖掘公共数据...