0

我正在寻找 Hadoop 示例,它比 wordcount 示例更复杂。

我想做的是读取Hadoop目录中的文件并获得一个zip文件,所以我想收集map类中的所有文件并在reduce类中创建zip文件。

谁能给我一个教程或示例的链接,而不是帮助我构建它?

我不希望任何人为我这样做,我要求提供比 wordaccount 更好的示例的链接。

我几乎明白了,如果你需要它:https ://github.com/flopezluis/testing-hadoop

4

1 回答 1

0

如果您的目标是规范化记录中的结构化数据,请从多个输入中输入,然后对其进行处理。基于它,我认为你真的需要看看这篇过去对我有帮助的文章。它包括如何使用 Hadoop/MapReduce 规范化数据并提供基于 Java 的源代码,如下所示:

  • 步骤 1:从原始数据中提取列值对。
  • 步骤 2:提取不在主 ID 文件中的列值对
  • 步骤 3:计算主文件中每列的最大 ID
  • 第 4 步:计算不匹配值的新 ID
  • 第 5 步:将新 ID 与现有主 ID 合并
  • 第 6 步:将原始数据中的值替换为 ID

还有另一个例子是关于在 JAVA 中使用新的 Writable 和 InputFormat 类读写通用记录结构的方法。看看这里

于 2012-06-01T21:40:25.910 回答