0

我不清楚 hive 中的分区和分桶之间的区别,如果您能提供一些示例细节,我将不胜感激。

4

1 回答 1

8

是 Buckets 和 Partitioning 之间的一个很好的区别。

基本上,Partitioning 和 Bucketing 都对执行查询的数据进行切片,比对非切片数据更有效。主要区别在于,在分区的情况下,随着数据的修改,切片的数量将不断变化,但是通过分桶,切片的数量是固定的,这是在创建表时指定的。

通过使用哈希算法然后对桶的数量取模来进行分桶。因此,一行可能会插入到任何存储桶中。分桶可用于数据采样,也可用于更有效地连接两个数据集。

于 2013-10-06T19:23:31.023 回答