我试图通过使用数据的放置方式来理解以下查询。
CREATE TABLE mytable (
name string,
city string,
employee_id int )
PARTITIONED BY (year STRING, month STRING, day STRING)
CLUSTERED BY (employee_id) INTO 256 BUCKETS
该关键字PARTITIONED BY
将数据分布在下面,如 dir 结构。
/user/hive/warehouse/mytable/y=2015/m=12/d=02
但我无法理解,employee_id
这些目录之间将如何分布?将创建 256 个存储桶(文件),所有这些文件都将拥有,employee_id
但哪个文件将位于哪个目录下,这将如何决定?
谁能帮我理解这一点?