0

我正在尝试对大量数据(几乎是 PB 的一半)运行配置单元查询,并且这些查询运行映射在内部减少。生成数据集需要很长时间(map reduce 完成)我可以使用什么优化机制来使这些查询更快,我有一个更重要的问题是可用于 map reduce 或 in / 的磁盘量tmp 目录对于更快地减少地图很重要?

4

1 回答 1

0

您可以做的不多,但我可以给出一些通常可以用 Hive 完成的方向:
您应该选择导致较少洗牌的 SQL。例如,您可以尝试在可能的情况下进行地图侧连接。您还可以通过某种方式执行一些操作,从而导致仅映射查询。
另一种方法是调整减速器的数量 - 有时 Hive 定义的减速器比需要的少得多 - 因此您可以手动设置它以更好地利用您的集群
如果您有许多查询要运行来进行转换 - 您可以为此定义低复制因子HDFS 中的临时数据
如果我们知道您在做什么,可以提供更多帮助。

于 2012-10-29T19:24:12.013 回答