0

我从这个链接上传了一个完整的基因本体术语文件http://www.geneontology.org/GO.downloads.ontology.shtml

我用图形表示数据,其中 GO 术语是节点,isA 和 PartOf 关系是边。根据我的研究,该图中应该只有一个根,即 GO Term,加入“GO:0008150”。

现在,我希望为每个 GO Term 分配一个级别,以便执行一些算法。我假设节点的级别是从根开始到要分配级别的节点结束的最长路径上的节点数。

问题是,在大约 60,000 个术语中,我发现只有大约 30,000 个节点可以从根访问。所以,剩下的30000个条款不能有一个级别。这使我无法执行我的算法。

这个问题的解决方案是什么?

这是我想到的一个解决方案,您认为这是一个好主意吗?

不能平级的 GO 项没有父项。然而,几乎所有的,(除了叶子)都有儿子,因此,我的想法是为这些节点中的每一个检查具有最深层次的儿子,然后将最深层次的节点分配其儿子级别减1。例如,如果我们在 1 - 3 - 5 层有 3 个儿子,我们将父亲分配给 4 层,因为它是最深儿子的层减去 1 层。

4

2 回答 2

1

更直接地,我会联系 GO Helpdesk 提出问题——他们的反应非常好:

ebi.ac.uk 的 go-helpdesk

您下载的文件中有三个本体,其中GO:0008150只是一个根。此外,即使您确实使用了所有三个本体, is_a 和 part_of 也不足以完全连接图 - 涉及许多其他关系,传递性可能很复杂,尤其是在考虑多条路径时:

http://www.geneontology.org/GO.ontology.relations.shtml

最后,您可能需要考虑您实际上试图从图中提取哪些信息,因为 GO(一个令人担忧的概念)中的“级别”实际上并没有携带太多(如果有的话)信息。

于 2012-12-26T00:00:37.030 回答
0

GO包含3个主要部分:生物过程、细胞成分和分子功能。你确定你已经从你的数据集中删除了另外两个组件吗?你也可以问http://www.biostars.org

于 2012-12-25T22:17:55.893 回答