0

我正在对在 2 个节点 Hadoop 2.2.0 集群上运行的 M/R 作业进行一些测试。我想了解的一件事是在本地模式下运行作业(不由 ResourceManager 管理)并在 YARN 上运行它的性能注意事项。我所做的测试表明,当作业通过 LocalJobRunner 执行时,它的运行速度比由 YARN 管理时快得多。设置集群时,我按照这里描述的步骤http://raseshmori.wordpress.com/2012/10/14/install-hadoop-nextgen-yarn-multi-node-cluster/,也许有一些配置指南忘了说?

谢谢!

4

2 回答 2

0

您将运行 LocalJobRunner 进行测试和小示例。当您需要处理首先证明使用 Hadoop 合理的数据量(又名“大数据”)时,您将使用集群。

当你运行一个小例子时,运行分布式事物的开销超过了并行化的好处

于 2014-06-13T19:58:27.433 回答
0

阿农是对的。我发现在我的一个用例中,使用 LocalJobRunner 运行比使用 yarn 快得多。使用 LocalJobRunner 运行会将地图进程作为进程内和本地机器运行。作业不会提交到 HDFS 集群。因此,地图任务不会安排在多台机器上。因此,应使用 LocalJobRunner 对代码进行单元测试。而已。对于所有其他实际目的,请使用纱线。

于 2015-02-18T10:40:58.247 回答