1

我是 MapReduce 的新手。我从简单的字数示例开始。

使用 Eclipse IDE,我创建了一个简单的 Java Maven 项目,添加了 MapReduce 依赖项,将我的程序编译为 Jar,将其复制到 Cloudera CDH VM,使用虚拟输入数据执行它。一旦我对它成功运行感到满意,我就将这个 Jar 放入我的 AWS EMR 环境中,并使用更大的(生产)数据集在那里运行它。

所以,Eclipse 是我的 IDE,Cloudera CDH VM 是我的开发环境,AWS EMR 是我的生产环境。

当我处理像字数这样的小项目时,这个设置工作得很好,但是我的 MapReduce 项目越大,在环境之间传输 Jar 文件就越麻烦。它使迭代开发非常乏味。

我想知道我的这个环境设置是否可以调整/改进/废弃和重建,以使其更适合迭代和大规模 MapReduce 开发项目。

任何帮助/提示表示赞赏。丹克申。

4

1 回答 1

0

自从我问这个问题以来,没有太大变化。Havent 找到了一个很好的替代方法,可以手动将 jar 文件复制到 hadoop 执行环境。另请参阅 -从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

于 2015-05-18T08:34:18.440 回答