Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我在 hadoop 集群上运行 Hive 作业。我才知道如果你只专注于不同的行为映射器和减速器,性能将会得到改善/改变。但是直到现在我还没有玩过它。直到没有,我只是使用 Hive 并使用默认映射器和减速器执行查询?
正如我对映射器和减速器的了解,我担心要设置映射器和减速器的值,以便性能会有所不同。我还想是只需要设置为主节点还是我们必须为所有节点设置?
任何对此有想法的人请向我解释有关此的情况。
在执行作业时我们还需要设置哪些其他参数?
据我所知,映射器的数量并不是您为每个工作设置的。它是由 JobTracker 计算的,考虑到每个节点的插槽数(您在 MapRed-site.xml 中设置的集群范围、您拥有的拆分数和其他作业(如果您使用 Fair of Capacity Scheduler - 您的队列参数也是考虑到) 。reducer 的数量会影响结果,您可以为每个作业设置它。通过以下命令 set mapred.reduce.tasks=128