apache-spark - Spark SQL（通过 HiveContext 进行 Hive 查询）总是创建 31 个分区

Question

我正在使用 Spark 代码中的 HiveContext 运行配置单元查询。无论我运行哪个查询以及它有多少数据，它总是会生成 31 个分区。有人知道原因吗？是否有预定义/可配置的设置？我本质上需要更多的分区。

我使用这个代码片段来执行蜂巢查询：

varpairedRDD = hqlContext.sql(hql).rdd.map(...)

我正在使用 Spark 1.3.1

谢谢，尼丁

score 0 · Accepted Answer

RDD 中的分区数与其所依赖的 RDD 中的分区数相同，但有几个例外：coalesce转换允许创建一个分区数少于其父 RDD 的 RDD，union转换创建一个 RDD其父分区数的总和，笛卡尔用他们的产品创建一个RDD。增加分区数

这里的这个链接很好地解释了如何定义分区数以及如何增加分区数。

1 回答 1