apache-spark - GenericUDF 的初始化方法被多次调用

问问题 2017-11-22T10:00:13.507

296 次

0

我有一个扩展 GenericUDF 的 HiveUDF，当我通过 spark.sql 调用 udf 时，我得到了正确的结果，但初始化的方法被多次调用。

无法理解为什么会这样？

1 回答 1

1

似乎是这里的火花错误https://issues.apache.org/jira/browse/SPARK-17728。

您可以在应用 UDF 之前尝试cache()数据，但有时这种解决方法会降低性能。

于 2018-02-11T21:40:24.993 回答