GFF和GTF的异同及相互转换
GFF(gff)全称为:general feature format
GTF(gtf)全称为:gene transfer format
前者用来注释基因组,后者用来注释基因。
异同点:
GTF文件和GFF文件都是由9列信息组成,并且这两种文件的前8列基本上是相同的。
第一列:seqid,参考序列的id。第二列:source,注释的来源。如果未知,则用点(.)代替。一般指明产生此gff3文件的软件或方法。第三列:type,类型,此处的名词是相对自由的,建议使用符合SO惯例的名称(sequenceontology),如gene,repeat_region,exon,CDS等。第四列:start,开始位点,从1开始计数(区别于bed文件从0开始计数)。第五列:end,结束位点。第六列:score,得分,对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。第七列:strand,“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。第八列:phase,步进。对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过的碱基个数。第九列:attributes,属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。GTF的第九列,通常为:
gene_id "At1g00001"; transcript_id "At1g00001.1";而GFF的第九列,通常为:
ID=mrna001;Name=abcID=exon1;Parent=mrna001ID=exon2;Parent=mrna001但GFF的第九列通常还可以增加一些其他信息,通过分号分割
转换
(1)gtf转换为gff
gffread my.gtf -o- > my.gff3(2)gff转换为gtf
gffread my.gff3 -T -o my.gtf 赞 (0)
