对我的数据有一个非常具体的访问模式,我想知道 Cassandra 的预期 mapreduce 性能。这些是我的要求:
- 我的数据库中将有 1000 万个文档(例如 JSON,每个几个 KB) 文档会不定期更新
- 用户希望从需要处理每个文档的整个数据集中创建结果
- 用户将希望以半交互式方式执行此操作,尝试他们对每个文档的处理所做的更改的效果。等待结果几分钟就可以了。
- 如果希望提高处理速度,用户希望能够花钱(扩大或扩大)以提高交互速度。
- 不会有大量用户,可能需要每小时处理几次。
- 耐用性不是主要问题,因为无论如何数据都是从源系统复制的。
这听起来像是 Cassandra 和 MapReduce 的好工作,但考虑到 MapReduce 不打算以半交互方式使用,而是作为后台工作,我想知道使用 Cassandra 可以获得哪些性能可能性。
我的其他选项是纯 MySQL,文档存储为 CLOBS 或分区 Redis。
谁能提供有关如何估计速度可能性的线索?