我正在尝试使用 MCS(多分类器系统)对有限的数据做一些更好的工作,即变得更准确。
我目前正在使用 K-means 聚类,但可以选择使用 FCM(模糊 c-means),将数据聚类成组(集群),数据可以代表任何东西,例如颜色。我首先在预处理和规范化之后对数据进行聚类,然后得到一些不同的聚类,中间有很多。然后我继续使用集群作为贝叶斯分类器的数据,每个集群代表一种不同的颜色,贝叶斯分类器被训练,然后来自集群的数据被放入单独的贝叶斯分类器。每个贝叶斯分类器只训练一种颜色。如果我们将色谱 3 - 10 视为蓝色,将 13 - 20 视为红色,而介于 0 - 3 之间的光谱为白色至 1.5,然后逐渐变为蓝色至 1.5 - 3,蓝色变为红色也是如此。
我想知道的是如何或什么样的聚合方法(如果你会使用的话)可以应用,以便贝叶斯分类器变得更强大,它是如何工作的?聚合方法是否已经知道答案,或者是人为交互来纠正输出,然后这些答案会返回到贝叶斯训练数据中?还是两者兼而有之?查看 Bootstrap 聚合它涉及让整体投票中的每个模型具有相同的权重,所以不太确定在这个特定情况下我会使用 bagging 作为我的聚合方法吗?然而,Boosting 涉及通过训练每个新模型实例来逐步构建一个集成,以强调先前模型错误分类的训练实例,不确定这是否是 bagging 的更好替代方案,因为我不确定它是如何在新实例上逐步构建的?最后一个是贝叶斯模型平均,这是一种集成技术,旨在通过从假设空间中采样假设并使用贝叶斯定律将它们组合来近似贝叶斯最优分类器,但是完全不确定如何从搜索空间中采样假设?
我知道通常你会使用竞争方法在两种分类算法之间反弹,一个说是的,一个说可能可以应用加权,如果它正确,你会得到两个分类器的最佳结果,但为了保持起见,我不想要竞争方法。
另一个问题是以这种方式一起使用这两种方法是否有益,我知道我提供的示例非常原始,可能不适用于该示例,但它对更复杂的数据是否有益。