ATAC-seq数据分析(三) 接上文讲了一下ATAC-seq的QC,如果质控没有问题的话接下来就是进行peak calling。 在这里我们使用目前最广泛的peak calling工具macs2。其原理是利用泊松分布来识别peak(简单来讲就是把周围的reads数量作为背景与目标位置进行比较)。我猜大多数人都是使用以下命令进行peak calling的: macs2 cal...
第一个数据集来自原始ATACseq 论文。我们将使用ATACseq_50k_Rep2示例GEO - GSM1155958可以从ENA以FASTQ格式获取数据。 SAMN02192806 - [here](https://www.ebi.ac.uk/ena/data/view/SAMN02192806“SAMN02192806”) 4.2. data_2 对于第二个数据集,我们将UCSD的Bing Ren生成的ATACseq作为ENCODE联盟的一部分。
接下来就是ATAC-seq的数据分析了。 首先拿到fq文件之后,我们首先需要对其进行过滤: fastp -i fq1 -I fq2 -o out1 -O out2 -w 16 建议大家使用fastp的默认参数,因为ATAC-seq的片段长度只有50bp左右。因此很多公司给的clean data是150bp的话是不合理的,可能会导致很多信息被漏掉(这是我掉的坑)。 拿到过滤...
ArchR主要接受scATAC-seq原始数据的两种常见输出格式:BAM文件和fragment文件。BAM文件是二进制格式下的排序文件,记录了片段、原始数据和细胞条形码等信息。fragment文件记录了片段以及对应的细胞ID。选择何种文件取决于上游处理流程,例如10XGenomics的CellRanger软件输出的是fragment文件,而sci-ATAC-seq流程则输出...
lane1_reverse_unpaired.fq.gzILLUMINACLIP:TruSeq3-PE.fa:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:25 结果发现,使用以上参数有三个文件中的数据100%被过滤掉了,但是其他数据draped率不超2%,个人推测trimmomatic参数设置过于严格不适合我的短片段数据。
ATAC-seq分析:数据处理(5) 1. 子集划分 我们可能希望将比对的读数分成代表核小体游离和核小体占据的读数。在这里,我们通过使用插入大小来过滤读取,为代表无核小体、单核小体和双核小体的读取创建 BAM 文件。 代码语言:text 复制 atacReads_NucFree <- atacReads[insertSizes < 100, ]...
ATAC-seq (Assay for Transposase-Accessible Chromatin withhigh throughput sequencing)是由斯坦福大学William J.Greenleaf和Howard Y. Chang实验室开发的用于研究染色质开放性(可及性)的方法,原理是通过Tn5转座酶切割暴露的DNA并同时连接上特异性的adapters,然后连接上adapters的DNA片段被分离出来用于二代测序。
ArchR主要以scATAC-seq原始数据经上游处理后的两种常见输出文件(BAM, fragment)作为输入。Fragment文件记录着scATAC-seq的fragment以及对应的细胞ID,每一行都是一条记录,该文件需要是tabix(见注1)排序并建立索引保证能被高效读取。BAM文件则是二进制格式下的tabix排序文件,记录着scATAC-seq的fragment、原始数据、细胞条形码...