cluster-analysis - 计算聚类的 F-measure

Question

谁能帮我集体计算F-measure？我知道如何计算召回率和精度，但不知道给定算法如何计算一个 F 度量值。

例如，假设我的算法创建了m个集群，但我知道相同数据有n 个集群（由另一个基准算法创建）。

我找到了一个 pdf，但它没有用，因为我得到的集体价值大于 1。pdf 的参考是F Measure Explained。具体来说，我看过一些研究论文，其中作者在F-measure的基础上比较了两种算法，它们共同得到了0到1之间的值。如果你仔细阅读上面提到的pdf，公式是F(C,K) = ∑ | 词 | / N * max {F(ci,kj)}
其中 ci 是参考集群 & kj 是由其他算法创建的集群，这里 i 从 1 运行到 n & j 从 1 运行到 m。假设 |c1|=218这里根据 pdf N=m*n 假设 m=12 和 n=10，对于 j=2，我们得到 max F(c1,kj)。F(c1,k2) 肯定在 0 和 1 之间。但是通过上面的公式计算得到的结果值我们会得到大于 1 的值。

score 11 · Accepted Answer

术语 f-measure 本身未指定。它是调和平均值，通常是精度和召回率。实际上，如果您指的是未加权版本，您甚至应该说F1-score，因为您可以对两个输入值赋予不同的权重。但是不说哪两个值是平均的（不是算术平均值！），这并没有说太多。

https://en.wikipedia.org/wiki/F1_score

请注意，这些值必须在 0-1 值范围内。否则，你之前有一个错误。

在聚类分析中，常用的方法是将 F1-Measure 应用于对的精度和召回率，通常称为“对计数 f-measure” 。但是您也可以在其他值上计算相同的平均值。

对计数有一个很好的特性，它不直接比较簇，所以当一个结果有 m 个簇，另一个有 n 个簇时，结果是明确定义的。但是，对计数需要严格的分区。当元素没有被聚类或分配给多个聚类时，对计数度量很容易超出 0-1 的范围。

E. Achtert，S. Goldhofer，H.-P。Kriegel, E. Schubert, A. Zimek
聚类度量和视觉支持
Int 的评估。会议。数据工程（ICDE 2012）
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

讨论其中一些指标（包括兰德指数等）并简单解释“对计数 F 度量”。

score 8 · Accepted Answer

Darius Pfitzner、Richard Leibbrandt 和 David Powers的论文Characterization and evaluation ofsimilarity measures for clusteringspairs包含很多关于这个主题的有用信息，包括以下示例：

给定集合，

           D = {1, 2, 3, 4, 5, 6}

和分区，

           P = {1, 2, 3}, {4, 5}, {6} 和
           Q = {1, 2, 4}, {3, 5, 6}

其中 P 是由我们的算法创建的集合，Q 是由我们已知的标准算法创建的集合

           对P = {(1, 2), (1, 3), (2, 3), (4, 5)},
           PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)}，和
           对 D = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4),
                      (2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}

所以，

           一个 = | PairsP 相交 PairsQ | = |(1, 2)| = 1
           乙 = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3
           c = | PairsQ- 对P | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5

     F-测量= 2a/(2a+b+c)

注意：在第 364 页的出版物中存在错误，其中计算了 a、b、c 和 d，而 b 和 c 的结果实际上切换不正确。这种转变会抛弃一些其他措施的结果。显然，F-measure 不受影响。

score 2 · Accepted Answer

公式中的 N，F(C,K) = ∑ | 词 | /N * max {F(ci,kj)}，是|ci|的总和总而言之，即它是元素的总数。您可能将其误认为是集群的数量，因此得到的答案大于 1。如果您进行更改，您的答案将介于 1 和 0 之间。

cluster-analysis - 计算聚类的 F-measure

3 回答 3

Related

Reference