4

我正在尝试使用 MCS(多分类器系统)对有限的数据做一些更好的工作,即变得更准确。

我目前正在使用 K-means 聚类,但可以选择使用 FCM(模糊 c-means),将数据聚类成组(集群),数据可以代表任何东西,例如颜色。我首先在预处理和规范化之后对数据进行聚类,然后得到一些不同的聚类,中间有很多。然后我继续使用集群作为贝叶斯分类器的数据,每个集群代表一种不同的颜色,贝叶斯分类器被训练,然后来自集群的数据被放入单独的贝叶斯分类器。每个贝叶斯分类器只训练一种颜色。如果我们将色谱 3 - 10 视为蓝色,将 13 - 20 视为红色,而介于 0 - 3 之间的光谱为白色至 1.5,然后逐渐变为蓝色至 1.5 - 3,蓝色变为红色也是如此。

我想知道的是如何或什么样的聚合方法(如果你会使用的话)可以应用,以便贝叶斯分类器变得更强大,它是如何工作的?聚合方法是否已经知道答案,或者是人为交互来纠正输出,然后这些答案会返回到贝叶斯训练数据中?还是两者兼而有之?查看 Bootstrap 聚合它涉及让整体投票中的每个模型具有相同的权重,所以不太确定在这个特定情况下我会使用 bagging 作为我的聚合方法吗?然而,Boosting 涉及通过训练每个新模型实例来逐步构建一个集成,以强调先前模型错误分类的训练实例,不确定这是否是 bagging 的更好替代方案,因为我不确定它是如何在新实例上逐步构建的?最后一个是贝叶斯模型平均,这是一种集成技术,旨在通过从假设空间中采样假设并使用贝叶斯定律将它们组合来近似贝叶斯最优分类器,但是完全不确定如何从搜索空间中采样假设?

我知道通常你会使用竞争方法在两种分类算法之间反弹,一个说是的,一个说可能可以应用加权,如果它正确,你会得到两个分类器的最佳结果,但为了保持起见,我不想要竞争方法。

另一个问题是以这种方式一起使用这两种方法是否有益,我知道我提供的示例非常原始,可能不适用于该示例,但它对更复杂的数据是否有益。

4

1 回答 1

4

我对您所遵循的方法有一些问题:

  1. K-means 将离它最近的点放在每个簇中。然后使用输出数据训练分类器。我认为分类器可能优于聚类隐式分类,但仅考虑到每个聚类中的样本数量。例如,如果聚类后的训练数据有 typeA(60%)、typeB(20%)、typeC(20%);您的分类器会更喜欢将模棱两可的样本提取到 typeA,以获得更少的分类错误。
  2. K-means 取决于您从对象中获取的“坐标”/“特征”。如果使用不同类型对象混合的特征,K-means 性能会下降。从特征向量中删除这些特征可能会改善您的结果。
  3. 代表您要分类的对象的“特征”/“坐标”可能以不同的单位进行测量。这一事实可能会影响您的聚类算法,因为您通过聚类误差函数在它们之间隐式设置单位转换。使用误差函数通过多次聚类试验(在不同的集群初始化时获得)选择最终的集群集。因此,对特征向量的不同坐标进行隐式比较(可能引入隐式转换因子)。

考虑到这三点,您可能会通过添加预处理阶段来提高算法的整体性能。例如,在计算机视觉应用的对象识别中,从图像中获取的大部分信息仅来自图像中的边界。不使用所有颜色信息和部分纹理信息。从处理图像的图像中减去边界以获得定向梯度直方图 (HOG) 描述符。该描述符返回更好地分离对象的“特征”/“坐标”,从而提高分类(对象识别)性能。从理论上讲,描述符会抛出图像中包含的信息。然而,

就您而言,我建议您尝试采用类似的方法来提高准确性:

  1. 为您的聚类算法提供更丰富的功能
  2. 利用该领域的先验知识来决定应该从特征向量中添加和删除哪些特征
  3. 始终考虑获得标记数据的可能性,以便可以应用监督学习算法

我希望这有帮助...

于 2012-10-10T21:36:35.773 回答