hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

Question

我的 EMR 集群中有很多日志文件，路径为“hdfs:///logs”。每个日志条目是多行，但有一个开始和结束标记来区分两个条目。现在，

并非日志文件中的所有条目都有用
有用的条目需要转换，输出需要存储在输出文件中，以便我以后可以有效地查询（使用 Hive）输出日志。

我有一个 python 脚本，它可以简单地获取一个日志文件并执行 a 部分。和 b。上面提到了，但我没有写任何映射器或减速器。

Hive 负责 Mappers 和 Reducers 的查询。请告诉我是否以及如何使用 python 脚本在所有日志上运行它并将输出保存在 'hdfs:///outputlogs' 中？

我是 Map Reduce 的新手，看过一些字数的例子，但它们都有一个输入文件。在哪里可以找到具有多个输入文件的示例？

score 1 · Accepted Answer

在这里，我看到您有两个问题：

有多个文件作为输入

如果您将多个文件作为输入传递，则相同的字数统计示例将起作用。实际上folder name，在您的情况下，您可以非常轻松地将 a 作为输入而不是文件名传递hdfs:///logs。

您甚至可以传递逗号分隔的路径列表作为输入，而不是使用以下内容：

FileInputFormat.setInputPaths(conf, new Path(args[0]));

您可以使用以下内容：

FileInputFormat.setInputPaths(job, args[0]);

请注意，仅传递逗号分隔的列表args[0]就足够了。
如何将您的逻辑转换为 mapreduce

这确实有一个陡峭的学习曲线，因为您需要从关键和价值方面进行思考。但我觉得你可以在映射器本身中拥有所有逻辑并拥有一个IdentityReducer，像这样：

conf.setReducerClass(IdentityReducer.class);

如果您花一些时间阅读以下位置的示例，您应该能够更好地做出这些决定：

score 1 · Accepted Answer

正如 Amar 所说，长期正确的做法是编写一个 MapReduce 作业来完成它。

但是，如果这是一次性的事情，并且数据不是太大，那么使用简单的 bash 脚本执行此操作可能是最简单/最容易的，因为您已经有了 python 脚本：

hadoop fs -text /logs/* > input.log
python myscript.py input.log output.log
hadoop fs -copyFromLocal output.log /outputlogs
rm -f input.log output.log

如果这是一个重复的过程——你想要可靠和高效的东西——或者如果你只是想学习更好地使用 MapReduce，那么坚持使用 Amar 的答案。

score 1 · Accepted Answer

如果您已经编写了逻辑，并且您想使用 EMR 和/或 vanilla Hadoop 进行并行处理 - 您可以使用 Hadoop 流：http ://hadoop.apache.org/docs/r0.15.2/streaming.html 。简而言之 - 您的脚本将数据输入标准输入并输出到标准输出可以成为映射器。
因此，您将使用集群在 HDFS 中运行数据处理，而无需重新打包您的代码。

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

3 回答 3

Related

Reference