amazon-s3 - 分布式数据存储

Question

我们正在尝试在我们的应用程序中添加某种持久性。该应用程序每秒生成大约250 个条目。这些条目中的每一个都属于 2M 文件之一。对于每个文件，我们希望保留最后 10 个条目，以便以后查找它们。

我们的客户端应用程序的工作方式：

我们正在寻找一种有效的方法来存储可以水平扩展的数据，因为我们获得的数据量每隔几周就会翻一番。

我们最初关注的是 S3。它工作得很好，但很快就会变得非常昂贵（仅在 PUT 操作中每月超过 1000 美元！）

然后我们试了一下Riak。但似乎我们不能在每个节点上获得超过 60 次写入/秒，这非常非常慢。

还有其他解决方案吗？

score 1 · Accepted Answer

您可以在 Riak 中打开许多旋钮 - 如果您还没有，请询问邮件列表，我们会为您找出一个合理的配置。60 次写入/秒不在正常范围内。

score 0 · Accepted Answer

我建议看看Appistry的CloudIQ Storage 。它是一个完全分布式的文件存储。它可以通过基于 REST 的 API 访问，并且可以在商品硬件上运行。您可以逐个文件定义保留的副本数。它支持最终一致模型，因此您可以平衡文件一致性和性能。

score 0 · Accepted Answer

Hadoop 的 HDFS 分布在 Amazon EC2 实例上怎么样？我知道每个实例都有大量的存储空间，而且您不必为 put/get 付费，只需为入站传输付费。

3 回答 3