1

我们想开发一个使用 Hadoop 进行日志文件分析的简单 Java EE Web 应用程序。以下是开发应用程序的方法。但是我们无法通过该方法。

  1. 日志文件将使用 sftp/ftp 从客户端机器上传到 Hadoop 服务器。
  2. 调用 Hadoop Job 获取日志文件并将日志文件处理到 HDFS 文件系统中。
  3. 在处理日志文件时,内容将存储到 HIVE 数据库中。
  4. 使用来自客户端 Web 应用程序的 HIVE JDBC 连接搜索日志内容

我们浏览了这么多样本来完成一些步骤。但我们没有任何具体的样品不可用。

请建议上述方法是否正确,并获取用 Java 开发的示例应用程序的链接。

4

2 回答 2

0

据我说,你可以做一件事:

1)您可以将来自各种来源的日志放入 HDFS 中,而不是将它们放入一个数据库中,例如 SQL Server,然后您可以使用Sqoop将数据导入 Hive(或 HDFS) 。

2) 这将减少您编写各种作业以将数据导入 HDFS 的工作量。

3) 一旦数据进入 Hive,你就可以为所欲为。

于 2012-12-18T11:42:54.767 回答
0

我会指出一些事情:
a)您需要合并日志文件或以其他方式注意您没有太多的日志文件。考虑 Flume (http://flume.apache.org/),它被构建为接受来自各种来源的日志并将它们放入 HDFS。
b) 如果您使用 ftp - 您将需要一些脚本来从 FTP 获取数据并放入 HDFS。
c)我看到的主要问题是 - 作为客户端 Web 请求的结果运行 Hive 作业。Hive 请求不是交互式的——它至少需要几十秒,甚至可能更多。
我也会有不同的并发请求 - 你可能不能并行运行更多

于 2012-12-18T09:31:36.493 回答