我想在配置单元中对我的表进行分区,以便为行中的每个唯一项目创建一个分区。大约 40 亿行表有大约 250 个分区,所以我想使用类似 for 循环或 distinct 的东西。这是我在代码中的想法(显然没有奏效)
ALTER TABLE myTable 如果不存在则添加
PARTITION(myColumn = distinct myColumn);
还是 Hive 中有某种循环?这需要UDF吗?如果可能的话,蜂巢答案会更好。
谢谢。
我想在配置单元中对我的表进行分区,以便为行中的每个唯一项目创建一个分区。大约 40 亿行表有大约 250 个分区,所以我想使用类似 for 循环或 distinct 的东西。这是我在代码中的想法(显然没有奏效)
ALTER TABLE myTable 如果不存在则添加
PARTITION(myColumn = distinct myColumn);
还是 Hive 中有某种循环?这需要UDF吗?如果可能的话,蜂巢答案会更好。
谢谢。
只需使用动态分区
https://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-DynamicpartitionInsert
它在旅途中创建分区