我正在使用 Apache spark-sql 从数据库中查询数据。我知道 Spark 默认共享相同的配置单元元存储。我已根据具有超过 300k 个不同值的列 id 对输入数据进行了分区。截至目前,该表有超过 30 万个分区,并且会定期增加。
是否会因此而出现任何问题?
我正在使用 Apache spark-sql 从数据库中查询数据。我知道 Spark 默认共享相同的配置单元元存储。我已根据具有超过 300k 个不同值的列 id 对输入数据进行了分区。截至目前,该表有超过 30 万个分区,并且会定期增加。
是否会因此而出现任何问题?