1

我们正在尝试在我们的应用程序中添加某种持久性。该应用程序每秒生成大约250 个条目。这些条目中的每一个都属于 2M 文件之一。对于每个文件,我们希望保留最后 10 个条目,以便以后查找它们。

我们的客户端应用程序的工作方式:

  • 它获取所有数据的流
  • 它获取正确的文件(GET)
  • 它添加了新内容
  • 它将文件保存回来(PUT)

我们正在寻找一种有效的方法来存储可以水平扩展的数据,因为我们获得的数据量每隔几周就会翻一番。

我们最初关注的是 S3。它工作得很好,但很快就会变得非常昂贵(仅在 PUT 操作中每月超过 1000 美元!)

然后我们试了一下Riak。但似乎我们不能在每个节点上获得超过 60 次写入/秒,这非常非常慢。

还有其他解决方案吗?

4

3 回答 3

1

您可以在 Riak 中打开许多旋钮 - 如果您还没有,请询​​问邮件列表,我们会为您找出一个合理的配置。60 次写入/秒不在正常范围内。

见: http: //lists.basho.com/mailman/listinfo/riak-users_lists.basho.com

于 2010-05-10T22:02:39.260 回答
0

我建议看看Appistry的CloudIQ Storage 。它是一个完全分布式的文件存储。它可以通过基于 REST 的 API 访问,并且可以在商品硬件上运行。您可以逐个文件定义保留的副本数。它支持最终一致模型,因此您可以平衡文件一致性和性能。

于 2011-04-18T16:10:50.393 回答
0

Hadoop 的 HDFS 分布在 Amazon EC2 实例上怎么样?我知道每个实例都有大量的存储空间,而且您不必为 put/get 付费,只需为入站传输付费。

于 2010-05-10T20:49:56.020 回答