scala - Scala/Spark 数据帧：找到对应于最大值的列名

Question

在 Scala/Spark 中，有一个数据框：

val dfIn = sqlContext.createDataFrame(Seq(
  ("r0", 0, 2, 3),
  ("r1", 1, 0, 0),
  ("r2", 0, 2, 2))).toDF("id", "c0", "c1", "c2")

我想计算一个新列，其中包含与最大值对应的列maxCol的名称（对于每一行）。在这个例子中，输出应该是：

+---+---+---+---+------+
| id| c0| c1| c2|maxCol|
+---+---+---+---+------+
| r0|  0|  2|  3|    c2|
| r1|  1|  0|  0|    c0|
| r2|  0|  2|  2|    c1|
+---+---+---+---+------+

实际上数据框有60多列。因此需要一个通用的解决方案。

Python Pandas 中的等价物（是的，我知道，我应该与 pyspark 进行比较......）可能是：

dfOut = pd.concat([dfIn, dfIn.idxmax(axis=1).rename('maxCol')], axis=1)

score 13 · Accepted Answer

通过一个小技巧，您可以使用greatest函数。所需进口：

import org.apache.spark.sql.functions.{col, greatest, lit, struct}

首先让我们创建一个列表structs，其中第一个元素是值，第二个元素是列名：

val structs = dfIn.columns.tail.map(
  c => struct(col(c).as("v"), lit(c).as("k"))
)

这样的结构可以传递给greatest如下：

dfIn.withColumn("maxCol", greatest(structs: _*).getItem("k"))

+---+---+---+---+------+
| id| c0| c1| c2|maxCol|
+---+---+---+---+------+
| r0|  0|  2|  3|    c2|
| r1|  1|  0|  0|    c0|
| r2|  0|  2|  2|    c2|
+---+---+---+---+------+

请注意，在平局的情况下，它将采用序列中稍后出现的元素（按字典顺序(x, "c2") > (x, "c1")）。如果由于某种原因这是不可接受的，您可以明确减少when：

import org.apache.spark.sql.functions.when

val max_col = structs.reduce(
  (c1, c2) => when(c1.getItem("v") >= c2.getItem("v"), c1).otherwise(c2)
).getItem("k")

dfIn.withColumn("maxCol", max_col)

+---+---+---+---+------+
| id| c0| c1| c2|maxCol|
+---+---+---+---+------+
| r0|  0|  2|  3|    c2|
| r1|  1|  0|  0|    c0|
| r2|  0|  2|  2|    c1|
+---+---+---+---+------+

如果是nullable列，您必须调整它，例如通过coalescingto 值 to -Inf。

scala - Scala/Spark 数据帧：找到对应于最大值的列名

1 回答 1

Related

Reference