我有 20 个属性和一个目标特征。所有属性都是二进制的(存在或不存在),目标特征是多项式的(5 类)。
但是对于每个实例,除了某些属性的存在之外,我还知道每个存在的属性对目标特征有多少影响(1-5 级)。
我如何利用我拥有的这些额外信息,并建立一个有助于更好地预测测试类的分类模型。
我有 20 个属性和一个目标特征。所有属性都是二进制的(存在或不存在),目标特征是多项式的(5 类)。
但是对于每个实例,除了某些属性的存在之外,我还知道每个存在的属性对目标特征有多少影响(1-5 级)。
我如何利用我拥有的这些额外信息,并建立一个有助于更好地预测测试类的分类模型。
为什么不只使用权重作为特征,而不是二进制存在指示符?您可以在连续刻度上将不存在编码为 0。
编辑:
您选择使用的分类器将学习训练中特征的最佳权重以分离类别......因此,如果您无法访问测试权重,我认为您无法做任何更好的事情。本质上,线性分类器正在学习以下形式的规则:
c_i = sgn(w . x_i)
你说你可以使用权重,但是没有数据是什么样的例子,也没有解释权重来自哪里,我不得不说我不知道你会如何使用它们(或者甚至你为什么想要——具有二进制特征的标准分类是否不够好?)
这显然取决于您使用的实际算法。
对于决策树,信息是无用的。它们旨在了解哪些属性有多大的影响。
类似地,支持向量机将学习最佳线性分割,因此任何类型的权重都会消失,因为 SVM 已经自动学习了这一点。
但是,如果您正在进行 NN 分类,只需根据需要缩放属性,以强调影响属性的差异。
抱歉,您需要自己查看其他算法。太多了。
使用知识优先于特征的权重。您实际上可以从数据中计算后验估计,然后得到最终模型