我采用了云计算并在 Mapreduce 中创建了一个用于天气分析的项目。为此,我在笔记本电脑中安装了以下软件。
- 甲骨文虚拟机
- HortonWorks 沙盒
我选择了 Redhat Linux 并分配了 2 GB 作为主内存。我使用来自沙盒站点的 hadoop 映像并使用 virtualbox 加载它。如果我的理解是正确的,那么 2 GB 是从我的系统中分配的,而 MapReduce 工作是在我的本地机器上完成的。我在这一点上正确吗?
我创建了我的 MapReduce 程序并在沙箱中运行它。它工作得很好,我得到了想要的输出。
- 对于我的工作,job tracker 显示使用了 8 个映射器,而对于 reduce,使用了一个 reducer。所以 8 个映射器基本上是我的 2 GB 主内存的 8 个拆分,它们用作处理数据的映射器。
如果上面的陈述是正确的,为什么我看到只使用了一个减速器?
如果映射器来自沙盒,他们是否有像亚马逊的 EMR 这样的服务器?