hadoop - Hadoop：只使用两台机器的缺点？

Question

我想做大量数据的日志解析并收集分析信息。但是，所有数据都来自外部来源，我只有 2 台机器要存储 - 一台作为备份/复制。

我正在尝试使用 Hadoop、Lucene ... 来实现这一点。但是，所有培训文档都提到 Hadoop 对于分布式处理、多节点很有用。我的设置不适合该架构。

仅在 2 台机器上使用 Hadoop 是否会产生任何开销？如果 Hadoop 不是一个好的选择，还有其他选择吗？我们查看了 Splunk，我们喜欢它，但我们购买它的成本很高。我们只是想建立我们自己的。

score 0 · Accepted Answer

Hadoop 应该用于分布式批处理问题。

日志文件分析是 Hadoop 最常见的用途之一，也是 Facebook 使用它的任务之一。

如果您有两台机器，则根据定义，您拥有一个多节点集群。如果需要，您可以在单台机器上使用 Hadoop，但随着您添加更多节点，处理相同数量数据所需的时间会减少。

你说你有海量数据？这些是需要理解的重要数字。就我个人而言，当我认为数据量很大时，我认为在 100s TB+ 范围内。如果是这种情况，您可能需要两台以上的机器，特别是如果您想通过 HDFS 使用复制。

您要收集的分析信息？您是否确定可以使用 MapReduce 方法回答这些问题？

如果您的硬件资源数量有限，您可以考虑在 Amazon EC2 上使用 Hadoop。以下是一些帮助您入门的链接：

1 回答 1