我有 4 个核心桌面,想使用我的所有核心使用 hadoop 进行本地数据处理。(即有时我有足够的能力在本地处理数据,有时我将相同的作业提交到集群)。
默认情况下,hadoop 本地模式只运行一个映射器和一个减速器,所以我的本地作业真的很慢。由于“痛苦”的配置,我不想首先在单机上设置集群,其次我每次都必须创建 jar。如此完美的解决方案是如何在单台机器上运行嵌入式 Hadoop
PS 伪分布式模式是不好的选择,因为它会使用单节点创建集群,所以我只会得到一个映射器,我必须花一些时间进行额外的配置。