2

我想做大量数据的日志解析并收集分析信息。但是,所有数据都来自外部来源,我只有 2 台机器要存储 - 一台作为备份/复制。

我正在尝试使用 Hadoop、Lucene ... 来实现这一点。但是,所有培训文档都提到 Hadoop 对于分布式处理、多节点很有用。我的设置不适合该架构。

仅在 2 台机器上使用 Hadoop 是否会产生任何开销?如果 Hadoop 不是一个好的选择,还有其他选择吗?我们查看了 Splunk,我们喜欢它,但我们购买它的成本很高。我们只是想建立我们自己的。

4

1 回答 1

0

Hadoop 应该用于分布式批处理问题。

关于 hadoop 的 5 个常见问题

日志文件分析是 Hadoop 最常见的用途之一,也是 Facebook 使用它的任务之一。

如果您有两台机器,则根据定义,您拥有一个多节点集群。如果需要,您可以在单台机器上使用 Hadoop,但随着您添加更多节点,处理相同数量数据所需的时间会减少。

你说你有海量数据?这些是需要理解的重要数字。就我个人而言,当我认为数据量很大时,我认为在 100s TB+ 范围内。如果是这种情况,您可能需要两台以上的机器,特别是如果您想通过 HDFS 使用复制。

您要收集的分析信息?您是否确定可以使用 MapReduce 方法回答这些问题?

如果您的硬件资源数量有限,您可以考虑在 Amazon EC2 上使用 Hadoop。以下是一些帮助您入门的链接:

于 2010-02-11T18:23:43.057 回答