从 Spark 1.5.0 开始,似乎可以为 DataFrames 上的自定义聚合编写自己的 UDAF: Spark 1.5 DataFrame API 亮点:日期/时间/字符串处理、时间间隔和 UDAF
但是,我不清楚 Python API 是否支持此功能?
从 Spark 1.5.0 开始,似乎可以为 DataFrames 上的自定义聚合编写自己的 UDAF: Spark 1.5 DataFrame API 亮点:日期/时间/字符串处理、时间间隔和 UDAF
但是,我不清楚 Python API 是否支持此功能?
您不能在 Spark 1.5.0-2.0.0 中定义 Python UDAF。有一个 JIRA 跟踪此功能请求:
以“稍后”的目标解决,因此它可能不会很快发生。
您可以使用 PySpark 中的 Scala UDAF - 它被描述为Spark: How to map Python with Scala or Java User Defined Functions?