我有一个扩展 GenericUDF 的 HiveUDF,当我通过 spark.sql 调用 udf 时,我得到了正确的结果,但初始化的方法被多次调用。
无法理解为什么会这样?
我有一个扩展 GenericUDF 的 HiveUDF,当我通过 spark.sql 调用 udf 时,我得到了正确的结果,但初始化的方法被多次调用。
无法理解为什么会这样?
似乎是这里的火花错误https://issues.apache.org/jira/browse/SPARK-17728。
您可以在应用 UDF 之前尝试cache()
数据,但有时这种解决方法会降低性能。