4

我开始研究 nosql 和面向文档的数据库来存储我们将在我们的网站上提供的 HTML5 应用程序的资产。这旨在替代仅在文件系统上存储文件。它们将是小型的 Web 优化文件,包括 html、js、css 和 xml 等文本文件,以及图像、声音和字体等二进制文件。

由于我对容错感兴趣,我正在研究的解决方案(riak,Cassandra)使用最终一致性。虽然我在抽象层面理解这个概念,但当我与经理和决策者交谈时,我无法用实际术语解释最终一致性需要多长时间才能保持一致。毫秒?秒?分钟?由于我在这个领域没有任何经验,所以我正在寻找现实世界的经验,这意味着什么。

我知道不同的变量将确切地决定任何配置需要多长时间,但我需要能够开始了解我们需要构建什么样的基础设施来支持我们的需求。所以我正在寻找的是我们是否需要优化网络延迟、节点数量等来支持我们的特定需求。

我们希望达到选择要测试的平台的程度,并且在我们将时间投入任何特定解决方案之前,我们希望能够说“不,这对我们不起作用”。

我们现在拥有使用严格一致性的系统(例如我们的网络服务器上的文件系统和我们的 mysql 数据库),因此我们的管理习惯于加载和超时等概念,以及“关闭”的事情。但我无法与他们沟通“是的,数据现在不可用,但它没有关闭;它最终会可用”。他们想知道“嗯,‘最终’有多长”?

我如何判断最终一致的系统是否会在我们的网站上实际运行?

4

1 回答 1

3

由于我对 Riak 比对 Cassandra 更熟悉,所以我将把我的讨论限制在最终一致性如何应用于 Riak。

在正常操作期间,Riak 支持可调整的一致性,允许您根据应用程序要求定制一致性行为。然而,默认设置非常合理并且适用于大多数场景,因为它们需要大多数副本响应读取或写入才能被认为是成功的。

尽管所有副本可能并非在每个时间点都处于完全相同的状态,但这些一致性设置将确保您阅读所写的内容。传统上通过称为读取修复的过程在读取上纠正不一致性,但如果启用了主动反熵(Riak 1.3 版中的新功能),也可以定期纠正。

最终一致性主要是在各种故障情况下考虑的。例如,如果一个节点与集群的其余部分分离,它将(使用默认设置)继续能够接受写入和读取,这将根据它所拥有的数据/副本尽其所能提供。由于在此期间它无法与集群的其余部分通信,因此可能会出现不一致。但是,一旦集群恢复到正常运行状态,这些问题就会得到解决。这需要多长时间取决于许多外部因素,范围可能从临时网络故障的几分之一秒到需要手动干预来纠正问题的几分钟或几小时不等。

于 2013-03-23T13:27:20.647 回答