我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。
spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题,可能与数据倾斜有关。
这是真正的原因吗?有什么解决办法吗?
我不想更改 minSupport 或 minConfidence 阈值,因为这会受到结果的影响。删除列也不是解决方案。
我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。
spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题,可能与数据倾斜有关。
这是真正的原因吗?有什么解决办法吗?
我不想更改 minSupport 或 minConfidence 阈值,因为这会受到结果的影响。删除列也不是解决方案。