0

我正在从事一个涉及蛋白质相互作用网络聚类的项目,已经在相互作用蛋白质的图上制作了几种聚类算法,我对现在如何查看创建的聚类是否好感到有些困惑。

将其置于上下文中,蛋白质相互作用网络代表蛋白质之间的成对连接,并隔离参与相同生物过程或共同执行特定功能的相互作用蛋白质组。这很重要,因为许多蛋白质和相互作用是未标记的,因此如果某个特定的许多标记蛋白质在一个簇中,则可以推断它们的功能。

与标记数据集可以显示或不显示正确分组数量的典型监督机器学习任务不同,蛋白质的良好聚类及其相互作用没有先例,假设所有蛋白质都在一个聚类中的聚类与其中的聚类一样好所有蛋白质都在一个簇中(尽管这没有信息意义)。当然也没有用于距离计算的特征向量,只有一种蛋白质是否与另一种蛋白质相互作用的二进制信息,所以这非常困难。

这个问题完全是探索性的,很难看出聚类是重要的还是虚假的。

大多数学术论文使用聚类分析技术来查看聚类算法的好坏。IE。它们是否对边缘删除或节点删除、集群相关性等具有鲁棒性。我想看看是否有任何信息可以使用蛋白质数据库捞出,比如输入大量的交互(来自一个集群)并查看标记的那些倾向于参与相同的代谢过程。如果在一个代谢过程中涉及大量蛋白质,则可以推测未标记的蛋白质可能涉及类似的过程或功能,或者类似地可能是或不是蛋白质结构域的一部分。

我刚刚开始深入研究生物信息学和一般研究,所以很有可能以前已经做过,而且我还没有足够广泛地环顾四周。如果是这种情况,我将不胜感激链接。我将不胜感激任何可能的帮助,或者关于如何思考这个问题的想法。

4

1 回答 1

1

如果我理解你的问题:你想知道你的聚集蛋白质相互作用网络是否识别出生物学相关的蛋白质复合物......

我可以想到三种方法来做到这一点:

1) 使用主要研究文献。获取一个集群并在 Pubmed 中搜索集群的每个成员,看看是否有任何与集群其他成员交互的报告。这将是耗时的,但也是最严格的。

2) 将每个集群提交给 GO 术语富集分析(David、funcassociate 等)或 Pathway 分析(Kegg)。如果一个集群是“生物”相关的,它应该针对特定的 GO/Kegg 术语进行丰富。这只有在您的大多数蛋白质都有注释时才有效。

3)查看表达式数据。生物复合物往往具有相关的基因表达模式。在那里,一个集群的表达应该与它的成员相关,而不是与集群的非成员相关。

我想到了第四个:

4) 在具有丰富而深入的注释数据库的生物体中查找同源物,并在那里寻找相关性(酵母(S. cerevisiae或 S. pombe*)、苍蝇(D. melanogaster)、蠕虫(C elegans)、小鼠和人类拥有大型蛋白质相互作用数据库(即 Biogrid)。

第五名:

5) 使用基因筛选数据。在这种情况下,遗传上位性数据将在复合体中具有不同的关系。同一复合物中的蛋白质往往不会发生遗传相互作用。虽然单独/独立作用的复合物中的蛋白质可能具有遗传相互作用成分。请参阅 Charles Boone 博士(多伦多大学)关于如何对其进行建模的工作。

最后的想法:

一点点特定领域的知识将大大有助于帮助其他人相信你的结果。众所周知/研究过的复合体是否形成集群?在这个领域已经做了很多工作,Pubmed 将成为你的朋友。从 Biogrid 开始,然后从那里开始锻炼。

祝你好运

于 2015-12-11T15:14:14.250 回答