2

对我的数据有一个非常具体的访问模式,我想知道 Cassandra 的预期 mapreduce 性能。这些是我的要求:

  • 我的数据库中将有 1000 万个文档(例如 JSON,每个几个 KB) 文档会不定期更新
  • 用户希望从需要处理每个文档的整个数据集中创建结果
  • 用户将希望以半交互式方式执行此操作,尝试他们对每个文档的处理所做的更改的效果。等待结果几分钟就可以了。
  • 如果希望提高处理速度,用户希望能够花钱(扩大或扩大)以提高交互速度。
  • 不会有大量用户,可能需要每小时处理几次。
  • 耐用性不是主要问题,因为无论如何数据都是从源系统复制的。

这听起来像是 Cassandra 和 MapReduce 的好工作,但考虑到 MapReduce 不打算以半交互方式使用,而是作为后台工作,我想知道使用 Cassandra 可以获得哪些性能可能性。

我的其他选项是纯 MySQL,文档存储为 CLOBS 或分区 Redis。

谁能提供有关如何估计速度可能性的线索?

4

0 回答 0