我有一个要求,我有大量传入数据到我拥有的系统中。
该集合中的单个数据单元具有一组附加的不可变属性 + 状态。状态是动态的,可以随时更改。
要求如下——
- 大型数据集可能会经历状态变化。更新需要快速。
- 我应该能够聚合以各种属性为中心的数据。
- 理想情况下 - 应该有一种方法可以将单个数据单元与聚合结果相关联,即我想深入研究产生某种聚合的特定事务。(我知道这里的竞争条件,例如在执行聚合后数据单元的状态发生变化;但这是意料之中的)。
- 所有聚合都是基于时间的 - 即在一天、2 天、一周、一个月等中枢轴 y 上的 x 总和。
我正在评估不同的技术来满足这些用例,并想听听您的建议。我查看了适合分析/聚合用例的 Hive/Pig。但是,我担心随时可能进入系统的大量更新。与索引数据库(sql 或 nosql)相比,我不确定这在 HDFS 文件上的表现如何。