1

我正在尝试在我的集群上运行仅在特定文件扩展名上运行的 MapReduce 作业。我们有一堆异构数据位于集群上,对于这个特定的工作,我只想在 .jpg 上执行。有没有办法可以在不限制映射器的情况下做到这一点。当您执行作业时,这似乎应该很容易做到。我在想类似 hadoop fs JobName /users/myuser/data/*.jpg /users/myuser/output 的东西。

4

1 回答 1

3

您的示例应该按书面形式工作,但您需要检查您正在调用 setInputPaths(Job, String) 方法的输入格式,因为这将解析 glob 字符串 "/users/myuser/data/*.jpg " 到 /users/myuser/data 中的单个 jpg 文件中。

于 2012-05-01T13:29:50.023 回答