0

我有 20 个属性和一个目标特征。所有属性都是二进制的(存在或不存在),目标特征是多项式的(5 类)。

但是对于每个实例,除了某些属性的存在之外,我还知道每个存在的属性对目标特征有多少影响(1-5 级)。

我如何利用我拥有的这些额外信息,并建立一个有助于更好地预测测试类的分类模型。

4

3 回答 3

2

为什么不只使用权重作为特征,而不是二进制存在指示符?您可以在连续刻​​度上将不存在编码为 0。

编辑:

您选择使用的分类器将学习训练中特征的最佳权重以分离类别......因此,如果您无法访问测试权重,我认为您无法做任何更好的事情。本质上,线性分类器正在学习以下形式的规则:

c_i = sgn(w . x_i)

你说你可以使用权重,但是没有数据是什么样的例子,也没有解释权重来自哪里,我不得不说我不知道​​你会如何使用它们(或者甚至你为什么想要——具有二进制特征的标准分类是否不够好?)

于 2013-08-27T10:56:44.550 回答
0

这显然取决于您使用的实际算法。

对于决策树,信息是无用的。它们旨在了解哪些属性有多大的影响。

类似地,支持向量机将学习最佳线性分割,因此任何类型的权重都会消失,因为 SVM 已经自动学习了这一点。

但是,如果您正在进行 NN 分类,只需根据需要缩放属性,以强调影响属性的差异。

抱歉,您需要自己查看其他算法。太多了。

于 2013-08-27T15:26:23.547 回答
0

使用知识优先于特征的权重。您实际上可以从数据中计算后验估计,然后得到最终模型

于 2013-08-28T20:50:26.907 回答