语境:
我们正在考虑使用符合 AMQP 的解决方案来计算每天 90 GB 的恒定实时数据流。我们想要实现的是实时统计数据,或多或少,基于我们观察到的所有或某些指标的组合。考虑的策略是在队列上发送数据并让工作进程处理数据的增量,将数据作为原始数据的聚合发送回队列。
观察:
对我来说,这看起来像是 Hadoop 之类的工作,但提出了一些担忧(和防护),主要是关于速度。我没有时间对两者进行基准测试,但我们希望通过队列(在 10~100 mb/s 附近的任何地方)抽取大量数据。我仍然认为它看起来像是分布式计算系统的工作,而且我也觉得队列解决方案的扩展性比分布式计算解决方案差。
问题:
简单地说,我说的对吗?我读过一些关于 Hadoop + HDFS 的文章,我正在考虑使用另一个 FS,比如 Lustre 之类的,来规避 NodeName SPOF,并使用某种解决方案来对任何类型的节点故障有某种容忍度整个集群。