apache-spark - 由于 Hive 元存储中的许多分区而导致的错误

Question

我正在使用 Apache spark-sql 从数据库中查询数据。我知道 Spark 默认共享相同的配置单元元存储。我已根据具有超过 300k 个不同值的列 id 对输入数据进行了分区。截至目前，该表有超过 30 万个分区，并且会定期增加。

是否会因此而出现任何问题？

score 1 · Accepted Answer

是的，那些许多分区条目将在名称节点上创建开销来跟踪每个分区条目。

如果您有一个表，那么对该列的 Hive 索引是一个不错的选择。

1 回答 1