上下文:我有一个数据框,其中所有分类值都已使用 StringIndexer 进行索引。
val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name }
val categoryIndexers = categoricalColumns.map {
col => new StringIndexer().setInputCol(col).setOutputCol(s"${col}Indexed")
}
然后我使用 VectorAssembler 对所有特征列(包括索引的分类列)进行向量化。
val assembler = new VectorAssembler()
.setInputCols(dfIndexed.columns.diff(List("label") ++ categoricalColumns))
.setOutputCol("features")
在应用分类器和一些额外的步骤后,我最终得到了一个包含标签、特征和预测的数据框。我想将我的特征向量扩展为单独的列,以便将索引值转换回其原始字符串形式。
val categoryConverters = categoricalColumns.zip(categoryIndexers).map {
colAndIndexer => new IndexToString().setInputCol(s"${colAndIndexer._1}Indexed").setOutputCol(colAndIndexer._1).setLabels(colAndIndexer._2.fit(df).labels)
}
问题:有没有一种简单的方法可以做到这一点,或者是以某种方式将预测列附加到测试数据框的最佳方法?
我试过的:
val featureSlicers = categoricalColumns.map {
col => new VectorSlicer().setInputCol("features").setOutputCol(s"${col}Indexed").setNames(Array(s"${col}Indexed"))
}
应用这个给我我想要的列,但它们是矢量形式(正如它的意思)而不是双精度类型。
编辑: 所需的输出是原始数据框(即分类特征作为字符串而不是索引),附加列指示预测标签(在我的情况下为 0 或 1)。
例如,假设我的分类器的输出如下所示:
+-----+---------+----------+
|label| features|prediction|
+-----+---------+----------+
| 1.0|[0.0,3.0]| 1.0|
+-----+---------+----------+
通过在每个特征上应用 VectorSlicer,我会得到:
+-----+---------+----------+-------------+-------------+
|label| features|prediction|statusIndexed|artistIndexed|
+-----+---------+----------+-------------+-------------+
| 1.0|[0.0,3.0]| 1.0| [0.0]| [3.0]|
+-----+---------+----------+-------------+-------------+
这很棒,但我需要:
+-----+---------+----------+-------------+-------------+
|label| features|prediction|statusIndexed|artistIndexed|
+-----+---------+----------+-------------+-------------+
| 1.0|[0.0,3.0]| 1.0| 0.0 | 3.0 |
+-----+---------+----------+-------------+-------------+
然后能够使用 IndexToString 并将其转换为:
+-----+---------+----------+-------------+-------------+
|label| features|prediction| status | artist |
+-----+---------+----------+-------------+-------------+
| 1.0|[0.0,3.0]| 1.0| good | Pink Floyd |
+-----+---------+----------+-------------+-------------+
甚至:
+-----+----------+-------------+-------------+
|label|prediction| status | artist |
+-----+----------+-------------+-------------+
| 1.0| 1.0| good | Pink Floyd |
+-----+----------+-------------+-------------+