hadoop - 如何验证我在 Hadoop 上的任何工作？

Question

我目前正在解决 Oozie Coordinator 的问题，该问题汇集了 NameNode 以进行数据检查。作为一个案例研究，我了解到雅虎每天运行超过 15000 个工作岗位。因此，如果大多数作业都依赖于数据，这将是 NameNode 的开销。我目前正在研究一个有 3-4 个节点的集群，基本上是我们自己的笔记本电脑。但是我的教授问我如何才能在如此大规模的范围内验证我的工作。我必须向他提供一些分析，以证明我的解决方案可以在这种规模上发挥作用。请建议我做同样的一些选择？

score 1 · Accepted Answer

可以使用Mumak模拟 Hadoop 集群。Mumak 的代码在0.21 版本中，而不是在主干中。它是一个贡献模块，因此围绕 Mumak 没有太多积极的工作或文档。这是相同的JIRA。另外，看看Ankus项目，它参考了mrsim和mrperf。

这是一个目前还不太关注的领域。但是，对于某人进行一些研究并获取一些代码来说，这将是一个不错的话题。

hadoop - 如何验证我在 Hadoop 上的任何工作？

1 回答 1

Related

Reference