apache-spark - spark sql 中 Hadoop 的映射连接等价物

翻译自：https://stackoverflow.com/questions/26023875 2014-09-24T18:25:23.713

1189 次

1

我在 Spark 中寻找 Hadoop 的 mapjoin 等价物，我可以找到这个spark.sql.autoBroadcastJoinThreshold

spark SQL 可以正常工作吗？我试过了，但它似乎没有效果，因为即使我应用了参数，随机读取/写入也是一样的。

我设置了这个值并运行了我的查询sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

SPARK-SQL 中还有其他等效概念吗？

谢谢 ..

1 回答 1

0

这是在 Spark 1.1.0 中引入的。
它在 Spark 测试套件中进行了测试（一点点）——请参阅PlannerSuite。
您的SET查询被不支持它的 Spark 版本愉快而无声地吞没——我刚刚用 1.0.2 尝试过。

于 2014-09-24T21:56:59.557 回答