我想知道如何从聚合日志中检索数据?这就是我所拥有的:
- 每天大约 30GB 的未压缩日志数据加载到 HDFS 中(这将很快增长到大约 100GB)
这是我的想法:
- 每天晚上使用 Pig 处理这些数据
- 读取、拆分和自定义日志UDF 检索如下数据:timestamp
, url
, user_id
(可以说,这就是我所需要的)
- 从日志条目并将其加载到 HBase (日志数据将无限存储)
然后,如果我想知道哪些用户在给定的时间范围内看到了特定页面,我可以快速查询 HBase,而无需每次查询都扫描整个日志数据(我想要快速的答案 - 分钟是可以接受的)。并且将同时进行多个查询。
您如何看待这个工作流程?您认为将这些信息加载到 HBase 中有意义吗?还有哪些其他选择,它们与我的解决方案相比如何?我感谢所有评论/问题和答案。先感谢您。