apache-spark - 性能问题 Spark LSH MinHash approxSimilarityJoin

问问题 2019-09-29T02:18:21.660

264 次

我正在使用 Apache Spark ML LSH 的 approxSimilarityJoin 方法加入 2 个数据集，一个包含 600 万条记录，另一个包含 1100 万条记录。

我尝试过使用 500 到 2000 的随机分区，最后 2 个任务永远卡住了。Executors 是 50 executor 内存是 50GB

还有什么可以做的？

0 回答 0