我正在学习 Hadoop 和 MapReduce 框架。到目前为止,我一直在玩文本文件并利用 MapReduce 框架处理它们。
当我开始学习 MapReduce 时,我发现第一个流行的例子是 WORDCOUNT,它是一个文本文件处理场景。然后我编写了自己的逻辑来处理一些文本文件并显示结果。在那种情况下我是成功的。
但我需要转向不同的输入格式。因为在现实世界中,我们不会只处理文本文件。我需要探索使用 MapReduce 框架对图像、音频、视频等不同格式的处理。但我正在努力寻找适合我的目的的例子。我需要一些关于 MapReduce 的示例和教程,其中包含从文本到视频的不同输入格式。
编辑:
我的意思是处理图像、视频和音频。不仅是文本文件。
编辑2:
一个例子:假设我有一个 10 年的 .bmp 图像(不涉及压缩和解压缩),其大小为 450GB。我需要分析文件夹中的每一个图像,我应该显示相似的图像(通过比较像素的相似性模式)。我应该列出在“从”“到”日期之间创建/修改的图像。假设在 2013 年 1 月至 2013 年 2 月期间在该组图像中创建/修改的图像。我怎样才能做到这一点?
如果有人帮助我走上正确的道路,我会很高兴!