0

我能够运行使用 ruby​​ 和输入文件构建的本地映射器和减速器。

不过,我不清楚分布式系统的行为。

对于生产系统,我在两台机器上设置了 HDFS。我知道如果我在 HDFS 上存储一个大文件,它会在两台机器上都有一些块以允许并行化。我是否还需要在 HDFS 上存储实际的映射器和减速器文件(在这种情况下是我的 ruby​​ 文件)?

另外,我将如何实际运行流式作业,以便它在两个系统上以并行方式运行?

4

1 回答 1

1

如果您要使用用 ruby​​(或 Java 以外的任何东西)编写的 mapper/reducers,则必须使用 hadoop-streaming。在将作业发送到集群时,Hadoop 流有一个选项来打包您的映射器/减速器文件。以下链接应该有您要查找的内容。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html

于 2012-05-01T03:45:32.780 回答