我在其中标记了 python 和 perl,只是因为这是我迄今为止使用的。如果有人知道更好的方法来解决这个问题,我当然愿意尝试一下。无论如何,我的问题:
我需要为遵循以下格式的基因预测程序创建一个输入文件:
seq1 5 15
seq1 20 34
seq2 50 48
seq2 45 36
seq3 17 20
其中 seq# 是geneID,右边的数字是开放阅读框中外显子的位置。现在我有了这些信息,在一个包含很多其他信息的 .gff3 文件中。我可以用 excel 打开它并轻松删除包含不相关数据的列。现在是这样安排的:
PITG_00002 . gene 2 397 . + . ID=g.1;Name=ORF%
PITG_00002 . mRNA 2 397 . + . ID=m.1;
**PITG_00002** . exon **2 397** . + . ID=m.1.exon1;
PITG_00002 . CDS 2 397 . + . ID=cds.m.1;
PITG_00004 . gene 1 1275 . + . ID=g.3;Name=ORF%20g
PITG_00004 . mRNA 1 1275 . + . ID=m.3;
**PITG_00004** . exon **1 1275** . + . ID=m.3.exon1;P
PITG_00004 . CDS 1 1275 . + . ID=cds.m.3;P
PITG_00004 . gene 1397 1969 . + . ID=g.4;Name=
PITG_00004 . mRNA 1397 1969 . + . ID=m.4;
**PITG_00004** . exon **1397 1969** . + . ID=m.4.exon1;
PITG_00004 . CDS 1397 1969 . + . ID=cds.m.4;
所以我只需要粗体的数据。例如,
PITG_0002 2 397
PITG_00004 1 1275
PITG_00004 1397 1969
您能提供的任何帮助将不胜感激,谢谢!
编辑:嗯,我搞砸了格式。**之间的任何东西都是我需要的,哈哈。