0

我们有两种类型的日志:

1) 会话日志:SESSION_ID、USER_ID、START_DATE_TIME、END_DATE_TIME

2) 事件日志:SESSION_ID、DATE_TIME、X、Y、Z

我们只需要存储事件日志,但想将 SESSION_ID 替换为其对应的 USER_ID。我们应该使用哪些技术(即 Flume?)将数据存储在 HDFS 中?

谢谢!

4

1 回答 1

0

是的 Flume 可用于将日志文件移动到 HDFS。

要将 SESSION_ID 替换为 USER_ID - 您可以:

使用 Shell 脚本执行此操作 - 并生成“修改后的事件日志文件” - 这就是 Flume 将拾取的。这将是最简单的方法。

于 2014-02-27T06:14:18.247 回答