1、class codes 是指一些代码,用于表示input中的转录本与annotation中的转录本的关系,代码对应关系如下图所示 class code 2、输出文件六个,前四个文件可以指定保存位置,后两个文件是跟输入的gtf文件保存在一个位置,并且都是以-o提供的前缀开头的 gffcmp.annotated.gtf:包含了class code信息,该文件一般用于下文继续...
#首先利用gffcpm.<input_file>.tmap中第3列的classcode信息提取转录本 #例如要提取classcode为i、x、u、o、e的转录本 #因为gtf中的转录本ID用双引号括住,因此这里输入转录本ID时也用双引号括住 awk'$3=="i" || $3=="x" || $3=="u" || $3=="o" || $3=="e" {print "\"" $5 "\"...
gffcompare_result.refmap:这个文件包含四列信息,第一列ref_gene_id是gene symbol ,无symbol的给出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。这个文件指组装后与参考基因组几乎完全匹配的转录本 gffcompare_result.tmap:包含了...
gffcompare_result.tmap:包含了转录本的定量信息,如cov,FPKM等,可用于定量或筛选新转录本(ref_gene_id,ref_id,class_code,qry_gene_id,qry_id,num_exons,FPKM,TPM,cov,len,major_iso_id,ref_match_len) 2.class code分类 class_code分类的具体含义:“=”代码表示此预测转录本与注释基因的所有内含子完全吻合...
first loads the reference annotation file in memory as an interval tree and then streams the query file (which can be also provided at stdin) while checking and reporting any overlaps found, and classifies the relationship with reference transcripts using a (subset of) the "class codes" like ...
gffcompare_result.refmap:这个文件包含四列信息,第一列ref_gene_id是gene symbol ,无symbol的给出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。这个文件指组装后与参考基因组几乎完全匹配的转录本 ...