Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我目前正在解决 Oozie Coordinator 的问题,该问题汇集了 NameNode 以进行数据检查。作为一个案例研究,我了解到雅虎每天运行超过 15000 个工作岗位。因此,如果大多数作业都依赖于数据,这将是 NameNode 的开销。我目前正在研究一个有 3-4 个节点的集群,基本上是我们自己的笔记本电脑。但是我的教授问我如何才能在如此大规模的范围内验证我的工作。我必须向他提供一些分析,以证明我的解决方案可以在这种规模上发挥作用。请建议我做同样的一些选择?
可以使用Mumak模拟 Hadoop 集群。Mumak 的代码在0.21 版本中,而不是在主干中。它是一个贡献模块,因此围绕 Mumak 没有太多积极的工作或文档。这是相同的JIRA。另外,看看Ankus项目,它参考了mrsim和mrperf。
这是一个目前还不太关注的领域。但是,对于某人进行一些研究并获取一些代码来说,这将是一个不错的话题。