0

我正在测试LogisticRegression综合生成的数据的性能。我输入的权重是

   w = [2, 3, 4]

没有拦截和三个功能。1000在假设每个随机正态分布对综合生成的数据点进行训练后,LogisticRegression我获得的 Spark 模型的权重为

 [6.005520656096823,9.35980263762698,12.203400879214152]

我可以看到每个权重都按原始值接近“3”的因子进行缩放。我无法猜测这背后的原因。代码很简单

/*
 * Logistic Regression model
 */
 val lr = new LogisticRegression()
  .setMaxIter(50)
  .setRegParam(0.001)
  .setElasticNetParam(0.95)
  .setFitIntercept(false)

 val lrModel = lr.fit(trainingData)


 println(s"${lrModel.weights}")

如果有人能阐明这里的可疑之处,我将不胜感激。

亲切的问候, Nikhil

4

1 回答 1

0

我发现了这个问题:我是完美可分离性的受害者,因为我的采样器工作不正常,结果数据完全是确定性的。结果,逻辑回归过度拟合了训练数据。

于 2015-11-18T02:47:10.240 回答