13

从 Spark 1.5.0 开始,似乎可以为 DataFrames 上的自定义聚合编写自己的 UDAF: Spark 1.5 DataFrame API 亮点:日期/时间/字符串处理、时间间隔和 UDAF

但是,我不清楚 Python API 是否支持此功能?

4

1 回答 1

2

您不能在 Spark 1.5.0-2.0.0 中定义 Python UDAF。有一个 JIRA 跟踪此功能请求:

以“稍后”的目标解决,因此它可能不会很快发生。

您可以使用 PySpark 中的 Scala UDAF - 它被描述为Spark: How to map Python with Scala or Java User Defined Functions?

于 2016-11-04T23:23:50.170 回答