hadoop - 沙箱 - 确定映射器和缩减器

Question

我采用了云计算并在 Mapreduce 中创建了一个用于天气分析的项目。为此，我在笔记本电脑中安装了以下软件。

我选择了 Redhat Linux 并分配了 2 GB 作为主内存。我使用来自沙盒站点的 hadoop 映像并使用 virtualbox 加载它。如果我的理解是正确的，那么 2 GB 是从我的系统中分配的，而 MapReduce 工作是在我的本地机器上完成的。我在这一点上正确吗？

我创建了我的 MapReduce 程序并在沙箱中运行它。它工作得很好，我得到了想要的输出。

对于我的工作，job tracker 显示使用了 8 个映射器，而对于 reduce，使用了一个 reducer。所以 8 个映射器基本上是我的 2 GB 主内存的 8 个拆分，它们用作处理数据的映射器。

如果上面的陈述是正确的，为什么我看到只使用了一个减速器？

如果映射器来自沙盒，他们是否有像亚马逊的 EMR 这样的服务器？

score 0 · Accepted Answer

对不起，但我不太明白你到底想问什么。你的问题看起来更像是一个帖子的标题，而不是一个问题。

Mappers 和 Reducers 是MapReduce framework. Hortonworks 只是提供定制 Hadoop 发行版的供应商之一。这些不同风格的 Hadoop 之间存在一定的差异，但 Mapper 和 Reducer 创建的标准在任何地方都是相同的。

如果我的理解是正确的，那么 2 GB 是从我的系统中分配的，而 MapReduce 工作是在我的本地机器上完成的。我在这一点上正确吗？

首先推荐的内存是4GB。

是的，它将从运行 virtualbox 的机器上分配。当 virtualbox 在“这台”机器上运行时，你还能从哪里获得资源？分配的内存与 MR 作业的运行位置有什么关系？当您使用沙箱时，它们将在沙箱中运行。

对于我的工作，job tracker 显示使用了 8 个映射器，而对于 reduce，使用了一个 reducer。所以 8 个映射器基本上是我的 2 GB 主内存的 8 个拆分，它们用作处理数据的映射器。

8 个映射器是您的 Mapper 代码的 8 个实例，它们正在处理您的输入数据的NOT8 个拆分和内存的 8 个拆分，或其他任何内容。

If the mappers are from sandbox, do they have servers like Amazon's EMR?

这对我来说是一个完全的保镖。请改写。

score 0 · Accepted Answer

0

当您想要读取数据并按原样处理时使用身份映射器而不进行任何更改。

于 2015-07-21T12:04:51.677 回答

2 回答 2