我正在从事一个涉及蛋白质相互作用网络聚类的项目,已经在相互作用蛋白质的图上制作了几种聚类算法,我对现在如何查看创建的聚类是否好感到有些困惑。
将其置于上下文中,蛋白质相互作用网络代表蛋白质之间的成对连接,并隔离参与相同生物过程或共同执行特定功能的相互作用蛋白质组。这很重要,因为许多蛋白质和相互作用是未标记的,因此如果某个特定的许多标记蛋白质在一个簇中,则可以推断它们的功能。
与标记数据集可以显示或不显示正确分组数量的典型监督机器学习任务不同,蛋白质的良好聚类及其相互作用没有先例,假设所有蛋白质都在一个聚类中的聚类与其中的聚类一样好所有蛋白质都在一个簇中(尽管这没有信息意义)。当然也没有用于距离计算的特征向量,只有一种蛋白质是否与另一种蛋白质相互作用的二进制信息,所以这非常困难。
这个问题完全是探索性的,很难看出聚类是重要的还是虚假的。
大多数学术论文使用聚类分析技术来查看聚类和算法的好坏。IE。它们是否对边缘删除或节点删除、集群相关性等具有鲁棒性。我想看看是否有任何信息可以使用蛋白质数据库捞出,比如输入大量的交互(来自一个集群)并查看标记的那些倾向于参与相同的代谢过程。如果在一个代谢过程中涉及大量蛋白质,则可以推测未标记的蛋白质可能涉及类似的过程或功能,或者类似地可能是或不是蛋白质结构域的一部分。
我刚刚开始深入研究生物信息学和一般研究,所以很有可能以前已经做过,而且我还没有足够广泛地环顾四周。如果是这种情况,我将不胜感激链接。我将不胜感激任何可能的帮助,或者关于如何思考这个问题的想法。