apache-spark - Pyspark FP 增长实现运行缓慢

Question

我在 Spark v2.3 上使用关联规则挖掘的 pyspark.ml.fpm (FP Growth) 实现。

spark UI 显示作为结束的任务运行非常缓慢。这似乎是一个常见问题，可能与数据倾斜有关。

这是真正的原因吗？有什么解决办法吗？

我不想更改 minSupport 或 minConfidence 阈值，因为这会受到结果的影响。删除列也不是解决方案。

score 0 · Accepted Answer

我面临着类似的问题。您可能会尝试的一种解决方案是为交易中的产品数量设置阈值。如果有几个交易的产品比平均值多得多，那么 FP Growth 计算的树就会爆炸。这会导致运行时间显着增加，并且内存错误的风险要高得多。

因此，对产品数量不成比例的交易进行异常值删除可能会起到作用。

希望这对您有所帮助:)

1 回答 1