我正在评估具有以下要求的传感器数据收集系统,
- 100 万个端点每分钟发送 100 个字节的数据(作为时间序列)。
基本上数百万次对存储的小写入。
This data is write-once, so basically it never gets updated.
- 访问要求
a. 需要定期(不那么频繁)访问用户的完整数据
b. 需要定期(更频繁地)访问用户的部分数据。例如,我需要在过去一小时/天/周/月收集的传感器数据用于分析/报告。
已开始将 Hive/HDFS 视为一种选择。有人可以评论 Hive 在这种用例中的适用性吗?我担心虽然分布式存储需求会起作用,但它似乎更适合数据仓库应用程序而不是实时数据收集/存储。
HBase/Cassandra 在这种情况下更有意义吗?