0

我是这个网站的新手,也是聚类分析的新手,所以如果我违反约定,我深表歉意。

我一直在使用 Cluster 3.0 执行具有欧几里得距离和平均链接的层次聚类分析。Cluster 3.0 输出一个 .gtr 文件,其中包含一个连接基因的节点及其相似度得分。我注意到 .gtr 文件中的第一行总是将一个基因与另一个基因联系起来,然后是相似度得分。但是,我如何重现这个相似度分数?

在我的数据集中,我有 8 个基因并创建一个距离矩阵,其中 d_{ij} 包含基因 i 和基因 j 之间的欧几里得距离。然后我通过将每个元素除以矩阵中的最大值来标准化矩阵。为了得到相似度矩阵,我从 1 中减去所有元素。但是,我的结果没有使用链接类型,并且与输出相似度得分不同。

我主要对链接如何影响第一个节点的相似性(两个最接近的基因的连接)以及如何计算相似性分数感到困惑。

谢谢!

4

1 回答 1

1

该算法使用某种链接方法而不是数据点来比较集群。然而,在算法的第一次迭代中,每个数据点都形成了自己的集群;这意味着您的链接方法实际上已简化为用于测量数据点之间距离的度量(对于您的情况是欧几里得距离)。对于后续迭代,将根据您的链接方法测量集群之间的距离,在您的情况下是平均链接。对于两个集群AB,计算如下:

在此处输入链接描述

其中d(a,b)是两个数据点之间的欧几里得距离。说服自己,当AB仅包含一个数据点(如在第一次迭代中)时,此等式将自身简化为d(a,b)。我希望这能让事情更清楚一些。如果没有,请提供更多详细信息,说明您到底想要做什么。

于 2013-07-15T22:20:22.087 回答