0

我是 Hadoop 新手,现在必须处理输入文件。我想处理每一行,输出应该是每一行的一个文件。

我在网上冲浪,发现 MultipleOutputFormat 和 generateFileNameForKeyValue。

但大多数人用 JobConf 类编写它。当我使用 Hadoop 0.20.1 时,我认为 Job 类发生了。而且我不知道如何使用 Job 类按键生成多个输出文件。

有人可以帮我吗?

4

1 回答 1

0

Eclipse 插件主要用于针对真实或“伪”集群提交和监控作业以及与 HDFS 交互。

如果您在本地模式下运行,那么我认为该插件不会为您带来任何好处 - 因为您的工作将在单个 JVM 中运行。考虑到这一点,我会说在 Eclipse 项目的类路径中包含最新的 1.x hadoop-core。

无论哪种方式MultipleOutputFormat都没有被移植到新的 mapreduce 包(在 1.1.2 或 2.0.4-alpha 中都没有),所以你要么需要自己移植它,要么找到另一种方式(也许MultipleOutputs- Javadoc 页面在使用 MultipleOutputs 上有一些用法)

于 2013-05-20T02:16:56.290 回答