需要什么样的架构来存储 100 TB 的数据并进行聚合查询?多少个节点?每个节点的磁盘大小?最佳实践是什么?
每天将写入 240GB,但大小将保持不变,因为将删除相同数量的数据。
或者对存储数据和快速组查询有什么不同的想法?
我强烈推荐HBase。
Facebook 将其用于消息服务,该服务在 2010 年 11 月每天处理 150 亿条消息。
我们针对大型数据集测试了 MongoDB,但最终选择了 HBase,并且已经愉快地使用了几个月。
请参考相关问题,
引用最上面的答案:
您可能对 MongoDB 网站上的“生产部署”页面感兴趣。列出了许多包含基础设施信息的演示文稿。例如:
http://blog.wordnik.com/12-months-with-mongodb说他们每个节点存储 3 TB。