9

有谁知道在离散和连续属性上执行聚类的好算法?我正在解决识别一组相似客户的问题,并且每个客户都具有离散和连续属性(考虑客户类型、该客户产生的收入金额、地理位置等。)

像 K-means 或 EM 这样的传统算法适用于连续属性,如果我们混合了连续属性和离散属性怎么办?

4

5 回答 5

5

如果我没记错的话,COBWEB 算法可以处理离散属性。

您还可以对离散属性执行不同的“技巧”,以创建有意义的距离度量。

您可以在 Google 上搜索分类/离散属性的聚类,这是最热门的作品之一:ROCK: A Robust Clustering Algorithm for Categorical Attributes

于 2009-05-06T13:53:48.180 回答
1

R 是一个很好的聚类工具 - 标准方法是使用 计算混合数据的相异矩阵daisy,然后使用该矩阵进行聚类agnes

cbaCRAN 上的模块包括一个基于 ROCK 对二进制预测器进行聚类的功能。

于 2009-05-07T23:08:15.887 回答
0

您还可以将亲和力传播视为一种可能的解决方案。但是要克服连续/离散的困境,您需要定义一个对离散状态进行估值的函数。

于 2009-05-06T13:55:21.577 回答
0

我实际上会向用户呈现成对的离散属性,并要求他们定义他们的接近度。你会给他们呈现一个从[同义词..非常外国]或类似的尺度。让很多人这样做,您最终会得到一个广泛接受的非线性属性值的邻近函数。

于 2009-05-07T11:03:56.067 回答
0

如何将您的每个分类属性转换为一系列 N-1 二元指标属性(其中 N 是类别数)?您不应该害怕高维,因为它是一种稀疏表示(例如SequentialAccessSparseVector可以使用 mahout)。一旦你这样做了,你就可以使用经典的 K-means 或任何标准的纯数字聚类算法。

于 2013-05-31T16:39:41.563 回答