Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试在我的集群上运行仅在特定文件扩展名上运行的 MapReduce 作业。我们有一堆异构数据位于集群上,对于这个特定的工作,我只想在 .jpg 上执行。有没有办法可以在不限制映射器的情况下做到这一点。当您执行作业时,这似乎应该很容易做到。我在想类似 hadoop fs JobName /users/myuser/data/*.jpg /users/myuser/output 的东西。
您的示例应该按书面形式工作,但您需要检查您正在调用 setInputPaths(Job, String) 方法的输入格式,因为这将解析 glob 字符串 "/users/myuser/data/*.jpg " 到 /users/myuser/data 中的单个 jpg 文件中。