我正在尝试使用 K-means 基于大约 1200 个二进制变量对大约 12000 个元素进行聚类。传统的距离度量(欧几里得、曼哈顿、汉明、列文斯坦)都没有产生令人满意的结果。
我设计了以下指标。
Dist(x,y)= P(x=0|y=1) P(y=0|x=1) 的最小值
有没有人对这类问题使用过类似的方法?使用这个指标有什么明显的缺陷吗?我对数据挖掘比较陌生,如果有任何反馈,我将不胜感激。
谢谢
我正在尝试使用 K-means 基于大约 1200 个二进制变量对大约 12000 个元素进行聚类。传统的距离度量(欧几里得、曼哈顿、汉明、列文斯坦)都没有产生令人满意的结果。
我设计了以下指标。
Dist(x,y)= P(x=0|y=1) P(y=0|x=1) 的最小值
有没有人对这类问题使用过类似的方法?使用这个指标有什么明显的缺陷吗?我对数据挖掘比较陌生,如果有任何反馈,我将不胜感激。
谢谢
您要建模的域是什么?您可以使用来自域的见解进行聚类吗?在这种一般情况下,可以说的很少。我会尝试降维,以便首先获得更有意义的特征,然后再进行聚类,但使用领域知识在这里会有所帮助。
您可以在二进制属性上使用 Jaccard 距离。假设您正在比较 2 行 A 和 B。
M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0
Jaccard 系数为
J = M11/(M11+M10+M01)
Jaccard 距离为:
D=(M01+M10)/(M11+M10+M01)