针对本GTF,对于transcript元件,基因名字 (Gene symbol)在第18列。 代码语言:javascript 复制 sed-n'2p'GRCh38.gtf|sed's/"/\t/g'|tr'\t''\n'|sed=|sed'N;s/\n/\t/'1chr202havana3transcript4872505970946.7+8.9gene_id10ENSG0000017859111;gene_version12613;transcript_id14ENST0000060883815;transcript_...
然后提取序列。这里用到了bedtools工具,官方有提供编译好的二进制文件,下载下来即可使用。 # -name: 输出基因名字(bed文件的第四列) # -s: 考虑到正反链(对于启动子区域,是否考虑链的信息关系不太大) bedtools getfasta -name -s -fi GRCh38.fa -bed GRCh38.promoter.bed >GRCh38.promoter.fa 1. 2. ...
# -name: 输出基因名字(bed文件的第四列)# -s: 考虑到正反链(对于启动子区域,是否考虑链的信息关系不太大)bedtools getfasta-name-s-fi GRCh38.fa-bed GRCh38.exon.bed>GRCh38.exon.fa# 查看序列信息head GRCh38.exon.fa|cut-c1-60>ENST00000608838::chr20:87249-87359(+)ACAGGAATTCATATCGGGGTGATCACTC...
提取序列同上。