0

我正在使用 Apache spark-sql 从数据库中查询数据。我知道 Spark 默认共享相同的配置单元元存储。我已根据具有超过 300k 个不同值的列 id 对输入数据进行了分区。截至目前,该表有超过 30 万个分区,并且会定期增加。

是否会因此而出现任何问题?

4

1 回答 1

1

是的,那些许多分区条目将在名称节点上创建开销来跟踪每个分区条目。

如果您有一个表,那么对该列的 Hive 索引是一个不错的选择。

于 2015-11-23T06:05:59.643 回答