我能够运行使用 ruby 和输入文件构建的本地映射器和减速器。
不过,我不清楚分布式系统的行为。
对于生产系统,我在两台机器上设置了 HDFS。我知道如果我在 HDFS 上存储一个大文件,它会在两台机器上都有一些块以允许并行化。我是否还需要在 HDFS 上存储实际的映射器和减速器文件(在这种情况下是我的 ruby 文件)?
另外,我将如何实际运行流式作业,以便它在两个系统上以并行方式运行?
我能够运行使用 ruby 和输入文件构建的本地映射器和减速器。
不过,我不清楚分布式系统的行为。
对于生产系统,我在两台机器上设置了 HDFS。我知道如果我在 HDFS 上存储一个大文件,它会在两台机器上都有一些块以允许并行化。我是否还需要在 HDFS 上存储实际的映射器和减速器文件(在这种情况下是我的 ruby 文件)?
另外,我将如何实际运行流式作业,以便它在两个系统上以并行方式运行?