我的 EMR 集群中有很多日志文件,路径为“hdfs:///logs”。每个日志条目是多行,但有一个开始和结束标记来区分两个条目。现在,
- 并非日志文件中的所有条目都有用
- 有用的条目需要转换,输出需要存储在输出文件中,以便我以后可以有效地查询(使用 Hive)输出日志。
我有一个 python 脚本,它可以简单地获取一个日志文件并执行 a 部分。和 b。上面提到了,但我没有写任何映射器或减速器。
Hive 负责 Mappers 和 Reducers 的查询。请告诉我是否以及如何使用 python 脚本在所有日志上运行它并将输出保存在 'hdfs:///outputlogs' 中?
我是 Map Reduce 的新手,看过一些字数的例子,但它们都有一个输入文件。在哪里可以找到具有多个输入文件的示例?