2

语境:

我们正在考虑使用符合 AMQP 的解决方案来计算每天 90 GB 的恒定实时数据流。我们想要实现的是实时统计数据,或多或少,基于我们观察到的所有或某些指标的组合。考虑的策略是在队列上发送数据并让工作进程处理数据的增量,将数据作为原始数据的聚合发送回队列。

观察:

对我来说,这看起来像是 Hadoop 之类的工作,但提出了一些担忧(和防护),主要是关于速度。我没有时间对两者进行基准测试,但我们希望通过队列(在 10~100 mb/s 附近的任何地方)抽取大量数据。我仍然认为它看起来像是分布式计算系统的工作,而且我也觉得队列解决方案的扩展性比分布式计算解决方案差。

问题:

简单地说,我说的对吗?我读过一些关于 Hadoop + HDFS 的文章,我正在考虑使用另一个 FS,比如 Lustre 之类的,来规避 NodeName SPOF,并使用某种解决方案来对任何类型的节点故障有某种容忍度整个集群。

4

1 回答 1

2

当您需要容错、良好的平衡等时,编写自己的“分布式环境”解决方案真的很困难。如果您需要近乎实时的地图/减少,您应该检查风暴,这是 twitter 用于满足其巨大数据需求的工具。它不如 hadoop 复杂,并且在消耗队列类型输入方面更好(在我看来)。

此外,如果您决定在 hadoop 上分析您的数据,请不要太担心名称节点的 SPOF,有一些方法可以避免它。

于 2012-05-02T15:11:28.843 回答