我有 500GB 的非结构化数据。我希望使用它的方式是构建这些数据的多个视图,以便轻松快速地使用。任何进入系统的新数据都应该在它必须的所有视图中建立索引,然后以原始格式存储在某个地方。除此之外,系统应该具有临时查询的能力。这些查询可能需要很长时间才能运行。我正在考虑将 Cassandra+Hadoop+Hive、HBase、Couchbase 和 Riak 作为我的用例的可能候选者。
更多数据将不断涌入,我计划在任何时间点在系统中最多保留几 TB 的数据。
想法?
你在这个问题中留下了很多重要的细节。决定数据存储时的重要因素大致如下:
您提供的信息越多,您/我们的评估就会越好。