我对 Apache Hadoop 真的很陌生。但是我想学习如何使用它来总结我的机器日志。实际上它还不够大(GB),我可以解析它并等待几个小时。但我认为学习 Hadoop 可能会有用。
所以,我有一个格式如下的日志条目。
Location, Date, IP Address
例如
New York, 2011-11-31 10:50:59, 1.1.1.1
New York, 2011-11-31 10:51:01, 1.1.1.2
Chicago, 2011-11-31 10:52:02, 1.1.1.1
Los Angeles, 2011-11-31 10:53:04, 1.1.1.4
我想按位置聚合它,按月份分组,然后按 IP 地址。下面是我脑海中的一些东西。
Location, Month, IP, Count
+ New York
| +-- November 2011
| | +---- 1.1.1.1 5
| | +---- 1.1.1.2 2
| | +---- 1.1.1.3 7
| +-- December 2011
| | +---- 1.1.1.1 6
| | +---- 1.1.1.4 6
| +-- January 2012
| +---- 1.1.1.1 10
+ Chicago
| +-- November 2011
| | +---- 1.1.1.1 20
| | +---- 1.1.1.2 1
| | +---- 1.1.1.3 10
(so on)
我的问题是:
- 我可以使用 Hadoop 来做到这一点,还是有更好的方法来做到这一点?
- 使用 Hadoop 执行此操作的常用方法是什么?
感谢您提供指向链接或文章或示例代码的指针。