1

用于聚类分类数据的最合适的机器学习算法系列是什么?假设我们有以下数据集:

V1        V2        V3        V4
"v1a"     "v2b"     "v3b"     "v4c"
"v1b"     "v2f"     "v3a"     "v4c"
"v1a"     "v2e"     "v3b"     "v4c"

有没有办法以某种方式将它们聚集在一起?我对通过 Apache Mahout 这样做特别感兴趣。任何提示\想法都受到高度赞赏。

4

1 回答 1

0

您首先需要回答的问题是:

什么是集群?

显然,许多现有的集群定义(通过小于 epsilon 的欧几里德距离的步长连接)等将没有用处。

有一些技巧可以对这些数据进行矢量化,以便您仍然可以在其上运行 k-means。

但更多时候,结果将毫无用处,因为人们没有首先考虑他们在做什么。

所以首先尝试找出你想做什么,然后寻找工具来做到这一点。

于 2013-02-25T15:25:17.810 回答