java - 带有 HAR 文件输出的 MapReduce 作业

Question

我有多个小输入文件。对于使用多个输入文件运行 map reduce 作业，这将是命令：

hadoop jar <jarname> <packagename.classname> <input_dir> <output>

但是，如果上面的 <output> 只是一个文本文件并且应该是一个HAR文件，那么 MapReduce 作业的所有输出都是 HAR 存档的命令是什么？

score 1 · Accepted Answer

您在示例中执行的 MapReduce 作业无法将其输出直接写入 har 文件。相反，您可以hadoop archive在 MapReduce 作业之后作为后处理步骤运行，以将 MapReduce 作业输出打包到 har 文件中。

> hadoop jar */share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /README.txt /wordcountout

> hdfs dfs -ls /wordcountout
Found 2 items
-rw-r--r--   3 chris supergroup          0 2015-12-16 11:28 /wordcountout/_SUCCESS
-rw-r--r--   3 chris supergroup       1306 2015-12-16 11:28 /wordcountout/part-r-00000

> hadoop archive -archiveName wordcountout.har -p /wordcountout /archiveout

> hdfs dfs -ls har:///archiveout/wordcountout.har
Found 2 items
-rw-r--r--   3 chris supergroup          0 2015-12-16 12:17 har:///archiveout/wordcountout.har/_SUCCESS
-rw-r--r--   3 chris supergroup       1306 2015-12-16 12:17 har:///archiveout/wordcountout.har/part-r-00000

/wordcountout如果仅 har 格式的数据足以满足您的需要，您可以选择删除原始内容（我的示例中的目录）。

有关该hadoop archive命令的其他信息可在此处获得：

http://hadoop.apache.org/docs/r2.7.1/hadoop-archives/HadoopArchives.html

java - 带有 HAR 文件输出的 MapReduce 作业

1 回答 1

Related

Reference