我有一个项目需要我处理大量(1000-10000)大(100MB 到 500MB)图像。我正在做的处理可以通过 Imagemagick 完成,但我希望在 Amazon 的 Elastic MapReduce 平台(我相信它使用 Hadoop 运行)上实际进行此处理。
在我找到的所有示例中,它们都处理基于文本的输入(我发现 Word Count 样本十亿次)。我找不到关于 Hadoop 的这种工作的任何信息:从一组文件开始,对每个文件执行相同的操作,然后将新文件的输出写成它自己的文件。
我很确定这可以通过这个平台完成,并且应该能够使用 Bash 完成;我认为我不需要费心去创建一个完整的 Java 应用程序或其他东西,但我可能是错的。
我不是要求有人给我代码,但如果有人有示例代码或处理类似问题的教程链接,将不胜感激......