我正在做一个附带项目,我们想在 hadoop mapreduce 程序中处理图像(最终部署到亚马逊的弹性 mapreduce)。该过程的输入将是所有文件的列表,每个文件都附有一些额外的数据(左下角的纬度/经度位置 - 这些是航拍照片)
实际处理需要在 Python 代码中进行,因此我们可以利用 Python 图像库。我能找到的所有 Python 流示例都使用标准输入并处理文本输入。我可以通过标准输入将图像数据发送到 Python 吗?如果是这样,怎么做?
我用 Java 编写了一个 Mapper 类,它获取文件列表并将名称、额外数据和二进制内容保存到序列文件中。我在想也许我需要编写一个自定义 Java 映射器来接收序列文件并将其通过管道传输到 Python。这是正确的方法吗?如果是这样,将图像输出的 Java 和读取图像的 Python 应该是什么样子?
如果不是很明显,我对 Java 或 Python 并不是很熟悉,所以作为对这两种语言的介绍,我也有可能只是咬牙切齿而不是我能咀嚼的东西......