0

我有数百万张图像存储在 hadoop 的 hdfs 中。我想建立这些图像的索引。如何获取这些图像的像素 rgb 值?我是hadoop新手,hadoop中的图像格式与原始图像二进制格式不同。另一个问题是我应该使用hadoop中的序列文件将巨大的图像打包成一个大文件以提高效率吗?非常感谢。

4

2 回答 2

0

如果您有额外的存储空间并且效率对您很重要,我肯定会使用 SequenceFile。Hadoop 将为您处理拆分文件。我们遇到了一个案例,我们从图像文件中提取数据,类似于您正在做的事情。在我们的例子中,我们在发现系统中提取用于摄取的元数据,以便可以在集群外部搜索我们的图像文件。在这种情况下,因为效率对我们来说不是什么大问题,我们只是单独处理文件,确保它们不可拆分。这样,其他系统就可以通过 http 获取源文件。

于 2012-07-06T16:51:07.210 回答
0

我可以部分回答这个问题。

另一个问题是我应该使用hadoop中的序列文件将巨大的图像打包成一个大文件以提高效率吗?

取决于单个文件的大小。如果单个文件真的很大,那么合并它们可能并没有真正的帮助,反之亦然。

在 SO 上查看此查询以获取更多详细信息。

于 2012-07-06T09:04:08.113 回答