1

大多数机器学习分类器在遇到没有以前见过的特征的​​实例时,会将示例与训练数据中最常见的类进行分类。

liblinear-java似乎不是这种情况,我想知道为什么会这样。这是一些示例代码,我在其中构建了一个示例问题,其中有两个特征,并且训练数据的0标签是1标签的 4 倍:

Problem problem = new Problem();
problem.l = 5;
problem.n = 2;
problem.x = new FeatureNode[][] {
  new FeatureNode[] { new FeatureNode(1, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1) },  
  new FeatureNode[] { new FeatureNode(2, 1) },  
};
problem.y = new int[] {0, 0, 0, 0, 1};

Parameter parameter = new Parameter(SolverType.L2R_L2LOSS_SVC, 1.0, 0.01);
Model model = Linear.train(problem, parameter);

3现在让我们在一个不在训练数据中的新特征上进行测试。由于经过训练的模型对特征一无所知3,我原以为预测的类将是0训练数据中最常见的类。

FeatureNode[] instance = new FeatureNode[] { new FeatureNode(3, 1) };
int prediction = Linear.predict(model, instance);
System.err.println(prediction);

然而,最后一行打印出来1。这是为什么?

4

1 回答 1

2

我相信这就是 liblinear 命令行版本的“-B”(偏差)参数旨在解决的问题。如果您直接创建 s,则该参数不可用,但它与在 every 的开头FeatureNode添加 a 基本相同。如果我遵循这种方法,并在训练和分类期间添加一个额外的偏差特征,那么一切正常。这是该代码的样子:new FeatureNode(1, 1)FeatureNode[]

Problem problem = new Problem();
problem.l = 5;
problem.n = 3;
problem.x = new FeatureNode[][] {
  new FeatureNode[] { new FeatureNode(1, 1), new FeatureNode(2, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1), new FeatureNode(2, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1), new FeatureNode(2, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1), new FeatureNode(2, 1) },  
  new FeatureNode[] { new FeatureNode(1, 1), new FeatureNode(3, 1) },  
};
problem.y = new int[] {0, 0, 0, 0, 1};

Parameter parameter = new Parameter(SolverType.L2R_L2LOSS_SVC, 1.0, 0.01);
Model model = Linear.train(problem, parameter);
FeatureNode[] instance = new FeatureNode[] { new FeatureNode(1, 1), new FeatureNode(4, 1) };
int prediction = Linear.predict(model, instance);

为了弄清楚为什么需要偏置特性,我深入研究了 liblinear-java 代码。预测代码如下所示:

for (int i = 0; i < nr_w; i++)
    dec_values[i] = 0;

for (FeatureNode lx : x) {
    int idx = lx.index;
    // the dimension of testing data may exceed that of training
    if (idx <= n) {
        for (int i = 0; i < nr_w; i++) {
            dec_values[i] += w[(idx - 1) * nr_w + i] * lx.value;
         }
    }
}

因此,在训练期间从未见过特征的情况下,我们只得到一个dec_values全为零的(决策值)数组,这意味着所有类具有相等的概率。因此,在分类过程中看到的每个实例中至少存在一个训练过程中看到的特征是至关重要的。

添加具有恒定值(例如1)的“偏差”特征解决了这个问题,允许模型学习默认权重以应用于任何新实例。在上面的代码中,模型学习了0.0869565217391306偏置特征的权重,这意味着模型正确地学会了偏爱类0而不是类1

于 2013-02-19T15:39:35.060 回答