我们有一个系统可以创建大量数据,最多 150 万条时间戳记录,大约每秒 24MB 或每天大约 2TB。
数据来自多个来源,具有多种格式,一个共同点是时间戳。
目前,我们将大约 5 天的数据保存在文件中,并拥有生成报告的内部软件。
我们正在考虑创建一个可以保存和查询多年数据的可扩展系统。
我们倾向于像 Nathan Marz 在How to beat the CAP theorem中所描述的那样,使用 Hadoop/ElephantDB 进行长期批量存储,使用 Storm/Cassandra 进行实时层。
我想知道社区是否可以指出任何替代方案或建议进一步阅读?
我们的数据主要按时间组织这一事实是否适用于特定类型的解决方案?
有没有更好的论坛来问这种问题?
谢谢