我正在使用 Apache Spark ML LSH 的 approxSimilarityJoin 方法加入 2 个数据集,一个包含 600 万条记录,另一个包含 1100 万条记录。
我尝试过使用 500 到 2000 的随机分区,最后 2 个任务永远卡住了。Executors 是 50 executor 内存是 50GB
还有什么可以做的?
我正在使用 Apache Spark ML LSH 的 approxSimilarityJoin 方法加入 2 个数据集,一个包含 600 万条记录,另一个包含 1100 万条记录。
我尝试过使用 500 到 2000 的随机分区,最后 2 个任务永远卡住了。Executors 是 50 executor 内存是 50GB
还有什么可以做的?