hadoop - Hive 查询生成需要很长时间才能生成数据集

Question

我正在尝试对大量数据（几乎是 PB 的一半）运行配置单元查询，并且这些查询运行映射在内部减少。生成数据集需要很长时间（map reduce 完成）我可以使用什么优化机制来使这些查询更快，我有一个更重要的问题是可用于 map reduce 或 in / 的磁盘量tmp 目录对于更快地减少地图很重要？

score 0 · Accepted Answer

您可以做的不多，但我可以给出一些通常可以用 Hive 完成的方向：
您应该选择导致较少洗牌的 SQL。例如，您可以尝试在可能的情况下进行地图侧连接。您还可以通过某种方式执行一些操作，从而导致仅映射查询。
另一种方法是调整减速器的数量 - 有时 Hive 定义的减速器比需要的少得多 - 因此您可以手动设置它以更好地利用您的集群
如果您有许多查询要运行来进行转换 - 您可以为此定义低复制因子HDFS 中的临时数据
如果我们知道您在做什么，可以提供更多帮助。

hadoop - Hive 查询生成需要很长时间才能生成数据集

1 回答 1

Related

Reference