2

我正在使用 Apche Spark Mllib 逻辑回归和线性回归算法。我正在使用文档中给出的代码片段。现在在最新版本的 Spark 1.5 中使用 LogisticRegressionWithSGD 和 LinearRegression 时出现的问题。

我用于LogisticRegressionwithSGD的参数值是

Stepsize=0.01
No.of Iterations = 1000
minBatchFraction = 0.001

具有此值的混淆矩阵是

27821    0        
2287    0

对于与LogisticRegressionWithLBFGS相同的数据,混淆矩阵是

27541   280  
1249   1038

我对LogisticRegressionWithSGD的结果一无所知。您能否告诉我使用LogisticRegressionWithSGD没有得到正确结果的原因。

4

1 回答 1

0

对于 LogisticRegressionWithSGD,您需要更改参数以便获得更好的准确度。参数值似乎不适合您的数据。尝试

  stepSize = 1.0
  numIterations = 1000
  miniBatchFraction = 1.0

此外,为了优化 LogisticRegressionWithLBFGS 结果,您尝试预测的第二类似乎有很多误报。由于结果可能在很大程度上取决于您的数据,请问自己数据是否平衡或有偏差?数量和质量是否足以学习模式?属性的选择和标准化是否充分?

于 2015-10-16T08:25:28.920 回答