针对本GTF,对于transcript元件,基因名字 (Gene symbol)在第18列。 代码语言:javascript 复制 sed-n'2p'GRCh38.gtf|sed's/"/\t/g'|tr'\t''\n'|sed=|sed'N;s/\n/\t/'1chr202havana3transcript4872505970946.7+8.9gene_id10ENSG0000017859111;gene_version12613;transcript_id14ENST0000060883815;transcript_...
提取序列同上。
# -name: 输出基因名字(bed文件的第四列)# -s: 考虑到正反链(对于启动子区域,是否考虑链的信息关系不太大)bedtools getfasta-name-s-fi GRCh38.fa-bed GRCh38.exon.bed>GRCh38.exon.fa# 查看序列信息head GRCh38.exon.fa|cut-c1-60>ENST00000608838::chr20:87249-87359(+)ACAGGAATTCATATCGGGGTGATCACTC...
提取基因启动子序列。首先确定启动子区域,定义转录起始位点上游1000bp和下游500bp为启动子区域。然后提取序列,这里用到了bedtools工具。提取基因序列。提取基因序列的操作类似于提取启动子序列,注意GFF文件的序列位置是从1开始,而bed文件的位置是从0开始。提取非编码RNA的序列。在GTF文件中筛选转录本类型...
提取转录本序列、CDS和蛋白序列 gffread -h可以参考所有可用参数,如果有特殊情况需要考虑的,还需配合其它参数使用。 1.获取转录本序列 gffread GRCh38.gtf -g GRCh38.fa -w GRCh38.transcripts.fa 1. 内容如下: head GRCh38.transcripts.fa >ENST00000608838 ...