3

我正在使用 ML Pipeline,例如:

VectorAssembler assembler = new VectorAssembler()
                .setInputCols(columns)
                .setOutputCol("features");
LogisticRegression lr = new LogisticRegression().setLabelCol(targetColumn);
        lr.setMaxIter(10).setRegParam(0.01).setFeaturesCol("features");

Pipeline logisticRegression = new Pipeline();
logisticRegression.setStages(new PipelineStage[] {assembler, lr});
PipelineModel logisticRegressionModel = logisticRegression.fit(learningData);

我想要的是Precision, Recall, AUC-ROC, F1-SCORE, ACCURACY在这个模型上获得标准度量的方法。我找到了BinaryClassificationMetrics——但不确定它是否完全兼容。 RegressionEvaluator似乎只有回归mse|rmse|r2|mae

那么使用 ML Pipeline 提取 Precision、Recall 等的正确方法是什么?

4

2 回答 2

3

瑞安上面的回答中缺少几件事。

我可以确认以下工作(注意:我的用例是多类分类)

val scoredTestSet = model.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").rdd.map(r => (r.getDouble(0), r.getDouble(1)))
val multiModelMetrics = new MulticlassMetrics(predictionAndLabelsRDD)
于 2017-12-19T13:13:21.847 回答
1

对数据进行评分后,获取预测和标签并将其传递给 BinaryClassificationMetrics

像下面的东西(认为它在 scala 我希望它有帮助)

val scoredTestSet = logisticRegressionModel.transform(testSet)
val predictionLabelsRDD = scoredTestSet.select("prediction", "label").map(r => (r.getDouble(0), r.getDouble(1)))
val binMetrics = new BinaryClassificationMetrics(predictionAndLabels)
// binMetrics.areaUnderROC

来自https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html#binary-classification的其他示例

在这种情况下,预测为 1.0 或 0.0,您还可以提取概率并使用它代替预测,以便 binMetrics 可以显示多个阈值的数据

于 2016-11-23T03:29:05.163 回答