3

我正在尝试使用 ML 管道和 DataFrame API 从逻辑模型中提取预测概率。预测概率的输出是一个列向量,其中存储了每个类(0, 1)的预测概率,如下所示。我想知道如何只提取第 1 类的概率。谢谢!

概率
“[0.13293408418007766,0.8670659158199223]”
“[0.1335112097146626,0.8664887902853374]”

4

3 回答 3

5

像这样的UDF应该可以工作:

import org.apache.spark.sql.functions.udf

val getPOne = udf((v: org.apache.spark.mllib.linalg.Vector) => v(1))
model.transform(testDf).select(getPOne($"probability"))
于 2015-09-14T19:20:34.723 回答
0

也可以先case概率列到org.apache.spark.mllib.linalg.DenseVector,然后提取元素。

model.transform(testDf).select("probability").map(e=> e.asInstanceOf[DenseVector]).map(e=> e(1))
于 2016-02-26T00:19:15.750 回答
0

这样也能达到目的。

import org.apache.spark.mllib.linalg.Vector
model.transform(dataDF).select("prob").map(row => row.getAs[Vector]("prob").toArray)

那么你现在就可以得到你想要的。

于 2015-12-26T02:18:22.143 回答