1

我正在使用 SVM-pref ( http://svmlight.joachims.org ) 来解决二进制分类问题。我对这个包没有太多经验,所以我就以下问题寻求帮助:

(1) 我的特征都是离散的/名义的。是否有一种特殊的方法来表示特征向量,例如将标称值转换为连续值的特殊方法,还是我们只是替换 1、2、3 等虚拟数字的标称值?

(2) 如果第一个问题的答案是我们用虚拟数字替换名义值,那么我的第二个问题是我们从 1 开始对特征值进行编号,所以我们有 1:1 但不是 1:0,否则学习者会认为零 -价值特征不存在。那是对的吗?

(3) 我们如何配置最佳的 -c 值和其余参数的值?仅仅是通过错误和试验,还是他们使用其他方法来决定这些参数?

4

2 回答 2

1
  1. 要在 SVM 中使用分类特征,您必须使用虚拟变量对它们进行编码,例如one-hot coding。对于类别的每个级别,您都应该引入一个维度。对于具有级别的功能,像这样的东西AB并且C

    A -> [1,0,0]
    B -> [0,1,0]
    C -> [0,0,1]

  2. 请参阅上一个问题的答案:每个分类级别使用一个维度。

  3. 通常这是通过在交叉验证设置中测试可能的值来完成的。

于 2014-02-26T10:26:34.540 回答