hive - 使用 hive 全局调度

Question

像这样使用蜂巢时：

 select req_time from ncsa where req_time > 90 sort by req_time limt 100;

你会发现这个：</p>

我猜在mapps中日期分为几个部分，并按每个部分减少排序。

请告诉我如何解决这个问题？

score 1 · Accepted Answer

使用order by而不是sort by.

order by和之间的区别在于sort by前者保证输出中的总顺序，而后者只保证减速器中行的顺序。有关更多详细信息，请参阅hive 文档。

PS。确保req_time是一个数字字段。

score 0 · Accepted Answer

CLUSTER BY x: 确保 N 个 reducer 中的每一个都获得不重叠的范围，然后在 reducer 上按这些范围进行排序。这为您提供全局排序，并且与执行 (DISTRIBUTE BY x和SORT BY x) 相同。您最终会得到 N 个或更多具有非重叠范围的排序文件。
所以CLUSTER BY- 基本上是 ORDER BY 的更具可扩展性的版本。

2 回答 2