ruby - 如何使用 hadoop 流和 ruby mappers/reducers 设置分布式 map-reduce 作业？

Question

我能够运行使用 ruby 和输入文件构建的本地映射器和减速器。

不过，我不清楚分布式系统的行为。

对于生产系统，我在两台机器上设置了 HDFS。我知道如果我在 HDFS 上存储一个大文件，它会在两台机器上都有一些块以允许并行化。我是否还需要在 HDFS 上存储实际的映射器和减速器文件（在这种情况下是我的 ruby 文件）？

另外，我将如何实际运行流式作业，以便它在两个系统上以并行方式运行？

score 1 · Accepted Answer

如果您要使用用 ruby（或 Java 以外的任何东西）编写的 mapper/reducers，则必须使用 hadoop-streaming。在将作业发送到集群时，Hadoop 流有一个选项来打包您的映射器/减速器文件。以下链接应该有您要查找的内容。

ruby - 如何使用 hadoop 流和 ruby​​ mappers/reducers 设置分布式 map-reduce 作业？