machine-learning - 可以将属性的预定义权重作为输入的分类算法

Question

我有 20 个属性和一个目标特征。所有属性都是二进制的（存在或不存在），目标特征是多项式的（5 类）。

但是对于每个实例，除了某些属性的存在之外，我还知道每个存在的属性对目标特征有多少影响（1-5 级）。

我如何利用我拥有的这些额外信息，并建立一个有助于更好地预测测试类的分类模型。

score 2 · Accepted Answer

为什么不只使用权重作为特征，而不是二进制存在指示符？您可以在连续刻度上将不存在编码为 0。

编辑：

您选择使用的分类器将学习训练中特征的最佳权重以分离类别......因此，如果您无法访问测试权重，我认为您无法做任何更好的事情。本质上，线性分类器正在学习以下形式的规则：

c_i = sgn(w . x_i)

你说你可以使用权重，但是没有数据是什么样的例子，也没有解释权重来自哪里，我不得不说我不知道你会如何使用它们（或者甚至你为什么想要——具有二进制特征的标准分类是否不够好？）

score 0 · Accepted Answer

这显然取决于您使用的实际算法。

对于决策树，信息是无用的。它们旨在了解哪些属性有多大的影响。

类似地，支持向量机将学习最佳线性分割，因此任何类型的权重都会消失，因为 SVM 已经自动学习了这一点。

但是，如果您正在进行 NN 分类，只需根据需要缩放属性，以强调影响属性的差异。

抱歉，您需要自己查看其他算法。太多了。

score 0 · Accepted Answer

使用知识优先于特征的权重。您实际上可以从数据中计算后验估计，然后得到最终模型

3 回答 3