2

我需要使用几个减速器(例如 4)在 Hive 中实现输出结果的总排序。正如我通过链接发现的那样Hive 正在使用表达式:

hash_function(bucketing column) mod num_buckets。

作为输入数字集(41,42,43,51,52,53)的结果,桶将按以下方式查找:

  • 1 桶:52
  • 2 桶:41、53
  • 3 桶:42
  • 4 桶:43,51

所以输出不会以适当的方式排序。也许有办法为数字集设置自定义函数,例如:

  • 1 桶:41,42
  • 2 桶:43,51
  • 3 桶:52
  • 4 桶:53
4

0 回答 0