1

我正在为 ELKI elki-bundle-0.7.1 提供类标签

它提供了很多统计数据,如下所示,但我找不到关于它们是什么的信息?

我知道f1-measure、precision 和recall 但是怎么会有多个度量?它们不应该根据聚类结果计算吗?

谢谢

对计数措施?

Jaccard 0.3851744186046512
F1-Measure 0.5561385099685204
Precision 0.6463414634146342
Recall 0.4880294659300184
Rand 0.8368055555555556
ARI 0.458537539334965

FowlkesMallows 0.5616348272664993

基于熵的度量?

NMI Joint 0.5758289911830176
NMI Sqrt 0.7309481146561948

基于立方的措施?

F1-Measure 0.7033781601851384
Recall 0.6901589423648247
Precision 0.7171136653895275

基于集合匹配的措施?

F1-Measure 0.7702702702702702
Purity 0.7916666666666667
Inverse Purity 0.7499999999999998

编辑距离测量?

F1-Measure 0.6312576312576313
Precision 0.6527777777777778
Recall 0.6111111111111112

基尼措施?

Mean +-0.2958 0.703636303877176
4

1 回答 1

0

请参阅 ELKI 文档。我们实施了许多许多评估措施。这是http://elki.dbs.ifi.lmu.de/wiki/RelatedPublications上列表的摘录

轮廓:

PJ Rousseeuw
剪影:对聚类分析的解释和验证的图形辅助
在:计算与应用数学杂志,第 20 卷

兰德指数:

兰德,WM
聚类方法评估的客观标准,载
于:美国统计协会杂志,卷。66 问题 336

福尔克斯-锦葵:

Fowlkes, EB 和 Mallows, CL
一种比较两个层次聚类的方法

立方:

A. Bagga 和 B. Baldwin
使用向量空间模型的基于实体的跨文档引用
:Proc。COLING '98 第 17 届计算语言学国际会议论文集

编辑距离:

Pantel, P. 和 Lin, D.
与委员会的文件集群
在:Proc。第 25 届 ACM SIGIR 信息检索研究与开发会议

基于熵的测量:

Meilă, M.
通过信息的变化比较聚类
在:学习理论和核机

Nguyen, XV 和 Epps, J. 和 Bailey, J.
聚类比较的信息论测量:是否需要对机会进行校正?
在:过程。ICML '09 第 26 届机器学习国际会议论文集

组匹配纯度:

Steinbach, M. 和 Karypis, G. 和 Kumar, V.
文档聚类技术的比较
在:KDD 文本挖掘研讨会,2000

E. Amigó、J. Gonzalo、J. Artiles 和 F. Verdejo
基于形式约束的外部聚类评估指标的比较
In:Inf。检索,卷。12,没有。5

Meilă, M
比较聚类
在:华盛顿大学,西雅图,技术报告418,2002

Zhao, Y. 和 Karypis, G.
文档聚类的标准函数:实验和分析
在:明尼苏达大学计算机科学系,技术报告 01-40,2001

C指数:

LJ Hubert 和 JR Levin
在自由召回中评估分类聚类的通用统计框架。
在:心理公报,卷。83(6)

一致对:

FB Baker 和 LJ Hubert
测量层次聚类分析的力量
:美国统计协会杂志,70(349)

FJ Rohlf
分类比较方法
:生态学和系统学年度回顾

戴维斯-博尔丁:

DL Davies 和 DW Bouldin
集群分离测量
:IEEE 事务模式分析和机器智能 PAMI-1(2)

产品质量管理系统:

MK Pakhira、S. Bandyopadhyay 和 U. Maulik
清晰和模糊聚类的有效性指数
In:模式识别,37(3)

方差比标准:

RB Calinski 和 J. Harabasz
用于聚类分析的树突方法
在:统计理论与方法中的通信,3(1)

我们也有 DBCV,但尚未审查和合并代码。

我个人的建议是使用Adjusted Rand Index,因为它可以很好地调整机会。ARI 小于 0 意味着结果比随机差。对于几乎所有其他测量,即使是随机结果也会得到积极的分数。

于 2016-04-07T14:56:32.890 回答