java - 使用 Hadoop 解析日志文件

Question

我是hadoop的新手。我进行了设置并执行了基本的字数统计 java 程序。结果看起来不错。

我的问题是可以使用 map/reduce 类解析一个非常大的日志文件以仅获取几行所需的行吗？还是需要其他步骤？

在这个方向上的任何指针都将非常有用。谢谢，阿尔西

score 0 · Accepted Answer

是的，这完全有可能，如果文件足够大，我相信 hadoop 可以证明是解决它的好方法，尽管 nhahtdh 说了什么。

您的映射器可以简单地充当过滤器 - 检查传递给它们的值，只有当它们符合所需行的条件时，您才能完成context.write()它。

您甚至不需要编写自己的减速器，只需使用类reduce()中的默认值即可Reducer。

1 回答 1