我正在使用 mcl 对图形进行聚类和分析。我不熟悉图论,我读到了函数mcxquery。
文档中说:“ mcxquery 的主要用途是分析不同相似性截止值的图。通常这是在使用非常宽松的阈值构造的图上完成的。例如,可以从数组表达式数据创建图使用具有非常低的 pearson 相关截止值(例如 0.2 或 0.3)的 mcxarray。”
他们所说的相似之处是什么?皮尔逊相关性如何用于分析图形?它是否在测量节点的“连接程度”?
我正在使用 mcl 对图形进行聚类和分析。我不熟悉图论,我读到了函数mcxquery。
文档中说:“ mcxquery 的主要用途是分析不同相似性截止值的图。通常这是在使用非常宽松的阈值构造的图上完成的。例如,可以从数组表达式数据创建图使用具有非常低的 pearson 相关截止值(例如 0.2 或 0.3)的 mcxarray。”
他们所说的相似之处是什么?皮尔逊相关性如何用于分析图形?它是否在测量节点的“连接程度”?
在这种情况下,皮尔逊相关仅用作示例。这可能是一个节点是一个基因的情况,一个基因与一个时间序列的表达相关联。然后可以将两个基因之间的相似性视为两个时间序列之间的 Pearson 相关性。如果您愿意,这将给出两个节点之间的相似性或“连接性”。请注意,mcl 和大多数其他网络聚类方法要求两个节点之间的边权重是相似性而不是距离。
现在,一个门槛是必要的。如果没有阈值,生成的网络将是一个完整的图(所有边都存在),或者如果不完整则非常密集。这样的网络很难处理(因为时间和内存的要求),但更重要的是,在较低的相似范围内通常包含的信息很少,所以所有的时间和内存大部分都花在了相对无用的数据上。据我所知,自动选择一个好的阈值没有好的指导方针。它可能依赖于应用程序,因此需要一些思考或探索。另一方面,如果数据良好,则可能存在一个平台(值范围),其中选择的确切阈值并不重要。
程序mcx 查询可以帮助选择这样的阈值;它将提供有关平均节点度、单例数、最大组件的大小和其他网络属性的信息,用于应用不同阈值产生的网络列表。