2

可以将模糊 c 均值应用于非数值数据集吗?即分类或混合数字和分类..如果是(我希望如此:():

  • 我们如何计算聚类中心?

如果否,有什么替代方法..如何对这些数据进行模糊聚类?

我需要回复请帮忙

注意:我已经使用 Jacard 的系数来计算 2 点之间的距离,但仍然没有得到计算聚类中心的方法,请参阅附件在此处输入图像描述 杰卡德系数

4

1 回答 1

4

您必须将数据转换为数字形式。有多种方法可以做到这一点,其中两种是:

  • 使用特征计数向量(常见于文本分类等)
  • 使用 one-hot 表示,其中可以采用n 个不同值的分类特征表示为n位字符串,如果特征在其允许范围内具有第i个值,则仅设置第i个位。

两者都是许多机器学习程序在后台进行的非常常见的转换。此外,您可能希望尝试使用与欧几里得不同的度量。特别是。使用 one-hot 表示,但根据数据,L1 范数(曼哈顿/城市街区距离)可能更合适。

除此之外,只需将给定的公式应用于转换后的数据集。

于 2011-10-08T18:36:16.603 回答