1

我有一种情况,我必须对操作系统数据进行集群。实际数据包括 151 个使用 Windows 的用户、27 个使用 MAC 的用户、5 个使用 Linux 的用户。

在使用 Lingo3gClusteringAlgorithm 与 Carrot2 API 进行聚类之后。获取集群结果为 MAC OS 用户 27,Linux 用户 5,最后所有 Windows 用户都在Other Topics Cluster中。但如果我将Windows用户作为一个单独的集群,那就太好了。因此,为了将 Windows 作为一个单独的集群,我需要配置哪些集群属性。目前仅使用“combined-cluster-score-balance”,其值为:1.0。任何帮助表示赞赏

4

1 回答 1

0

Carrot2 和 Lingo3G 都是自然文本聚类引擎。您需要至少十几个包含至少一段文本的文档才能获得合理的结果。

查看您的数据,文本字段包含一个单词,这对于我们的算法来说太少了,无法成功。对于您的特定数据,您可能需要一些适用于数值和名义数据的通用聚类算法。MahoutWEKA可能是一个好的开始。

于 2017-05-29T08:25:02.193 回答