我需要使用几个减速器(例如 4)在 Hive 中实现输出结果的总排序。正如我通过链接发现的那样Hive 正在使用表达式:
hash_function(bucketing column) mod num_buckets。
作为输入数字集(41,42,43,51,52,53)的结果,桶将按以下方式查找:
- 1 桶:52
- 2 桶:41、53
- 3 桶:42
- 4 桶:43,51
所以输出不会以适当的方式排序。也许有办法为数字集设置自定义函数,例如:
- 1 桶:41,42
- 2 桶:43,51
- 3 桶:52
- 4 桶:53