hadoop - 将 Hadoop MapReduce 限制为特定的文件扩展名

Question

我正在尝试在我的集群上运行仅在特定文件扩展名上运行的 MapReduce 作业。我们有一堆异构数据位于集群上，对于这个特定的工作，我只想在 .jpg 上执行。有没有办法可以在不限制映射器的情况下做到这一点。当您执行作业时，这似乎应该很容易做到。我在想类似 hadoop fs JobName /users/myuser/data/*.jpg /users/myuser/output 的东西。

score 3 · Accepted Answer

您的示例应该按书面形式工作，但您需要检查您正在调用 setInputPaths(Job, String) 方法的输入格式，因为这将解析 glob 字符串 "/users/myuser/data/*.jpg " 到 /users/myuser/data 中的单个 jpg 文件中。

hadoop - 将 Hadoop MapReduce 限制为特定的文件扩展名

1 回答 1

Related

Reference