hadoop - 带有 Hive 的 Hadoop

Question

我们想开发一个使用 Hadoop 进行日志文件分析的简单 Java EE Web 应用程序。以下是开发应用程序的方法。但是我们无法通过该方法。

日志文件将使用 sftp/ftp 从客户端机器上传到 Hadoop 服务器。
调用 Hadoop Job 获取日志文件并将日志文件处理到 HDFS 文件系统中。
在处理日志文件时，内容将存储到 HIVE 数据库中。
使用来自客户端 Web 应用程序的 HIVE JDBC 连接搜索日志内容

我们浏览了这么多样本来完成一些步骤。但我们没有任何具体的样品不可用。

请建议上述方法是否正确，并获取用 Java 开发的示例应用程序的链接。

score 0 · Accepted Answer

据我说，你可以做一件事：

1）您可以将来自各种来源的日志放入 HDFS 中，而不是将它们放入一个数据库中，例如 SQL Server，然后您可以使用Sqoop将数据导入 Hive（或 HDFS）。

2) 这将减少您编写各种作业以将数据导入 HDFS 的工作量。

3) 一旦数据进入 Hive，你就可以为所欲为。

score 0 · Accepted Answer

我会指出一些事情：
a）您需要合并日志文件或以其他方式注意您没有太多的日志文件。考虑 Flume (http://flume.apache.org/)，它被构建为接受来自各种来源的日志并将它们放入 HDFS。
b) 如果您使用 ftp - 您将需要一些脚本来从 FTP 获取数据并放入 HDFS。
c）我看到的主要问题是 - 作为客户端 Web 请求的结果运行 Hive 作业。Hive 请求不是交互式的——它至少需要几十秒，甚至可能更多。
我也会有不同的并发请求 - 你可能不能并行运行更多

hadoop - 带有 Hive 的 Hadoop

2 回答 2

Related

Reference