2

我在 Spark ML 中使用LinearRegression模型来预测价格。这是一个单变量回归(x=time, y=price)

假设我的数据是干净的,改进此模型的通常步骤是什么?

到目前为止,我尝试regularization parameter使用cross-validation进行调优,并得到了rmse=15given stdev=30

还有其他我应该关心的重要超参数吗?似乎 Spark ML 没有很好地记录超参数调整......


更新

我能够使用ParamGrid和来调整参数Cross-Validation。但是,有没有办法在正确训练线性回归模型后查看拟合线的样子?我怎么知道线路是quadriccubic等等?如果有一种方法可以用所有训练数据点可视化拟合线,那就太好了。

4

3 回答 3

0

您提供的链接指向主要的超参数:

.setRegParam(0.3)   // lambda for regularization
.setElasticNetParam(0.8)  // coefficient for L1 vs L2 

您可以执行 GridSearch 来优化它们的使用 .. 说

lambda in 0 to 0.8   
elasticNet in 0 to 1.0

这可以通过ParamMap提供CrossValidator

val estimatorParamMaps: Param[Array[ParamMap]]
param for estimator param maps
于 2017-01-28T05:51:28.733 回答
0

val session = SparkSession.builder().master("local").appName("PredictiveAnalysis").getOrCreate();

def main(args: Array[String]): Unit = {

        val data = session.sparkContext.textFile("C:\\Users\\Test\\new_workspace\\PredictionAlgo\\src\\main\\resources\\data.txt");
        val parsedData = data.map { line =>
        val x : Array[String] = line.replace(",", " ").split(" ")
        val y = x.map{ (a => a.toDouble)}
        val d = y.size - 1
                val c = Vectors.dense(y(0),y(d))
                LabeledPoint(y(0), c)
        }.cache();
        val numIterations = 100;
        val stepSize = 0.00000001;
        val model = LinearRegressionWithSGD.train(parsedData, numIterations, stepSize);

        val valuesAndPreds = parsedData.map { point =>
        val prediction = model.predict(point.features)
        (point.label, prediction)
        }

        valuesAndPreds.foreach((result) => println(s"predicted label: ${result._1}, actual label: ${result._2}"))

        val MSE = valuesAndPreds.map{ case(v, p) => math.pow((v - p), 2) }.mean()
        println("training Mean Squared Error = " + MSE)
}

}

于 2017-11-17T14:39:40.003 回答
0

为了回答您的后续问题,LinearRegression 也将是线性拟合。您可以通过使用线图预测 y 值范围内的点数据集来绘制它。然后,您可以在其上绘制您的训练数据。

于 2017-05-16T04:34:02.137 回答