0

我在 hadoop 集群上运行 Hive 作业。我才知道如果你只专注于不同的行为映射器和减速器,性能将会得到改善/改变。但是直到现在我还没有玩过它。直到没有,我只是使用 Hive 并使用默认映射器和减速器执行查询?

正如我对映射器和减速器的了解,我担心要设置映射器和减速器的值,以便性能会有所不同。我还想是只需要设置为主节点还是我们必须为所有节点设置?

任何对此有想法的人请向我解释有关此的情况。

在执行作业时我们还需要设置哪些其他参数?

4

1 回答 1

1

据我所知,映射器的数量并不是您为每个工作设置的。它是由 JobTracker 计算的,考虑到每个节点的插槽数(您在 MapRed-site.xml 中设置的集群范围、您拥有的拆分数和其他作业(如果您使用 Fair of Capacity Scheduler - 您的队列参数也是考虑到) 。reducer
的数量会影响结果,您可以为每个作业设置它。通过以下命令
set mapred.reduce.tasks=128

于 2012-05-09T06:57:27.490 回答