2

我想知道在涉及数据库和文件系统的多个数据存储中处理事务的最佳方式是什么?

这是场景:

考虑我有一个系统,其中我必须存储包含文本和二进制文件的数据。文本提供元数据信息,二进制数据是要存储的实际数据。此外,数据应该可以根据客户端设置的元数据进行搜索。

这带来了以 3 种形式存储数据的架构 1. 将二进制数据存储到文件系统 2. RDBMS 中的记录,包含指向文件系统上二进制数据的指针(id,位置) 3. 索引中的记录像 Solr/Lucene 这样的引擎,用于基于元数据的搜索需求。

请注意,使用 RDBMS 是为了提高可靠性,以便在 Solr/Lucene 索引损坏的情况下可以进行重新索引。

上述场景中的挑战在于它们中的每一个都是不同的数据存储并且有自己的事务行为。RDBMS 为我提供了事务能力,但其他两个没有。

现在的问题是,我想创建跨多个数据存储的事务行为。这意味着任何数据存储中的故障都应该恢复其他两个上的更改。

它还提出了一个问题,即哪个应该是必须从哪里搜索信息的主数据存储,因此数据存储到每个数据存储中的顺序将变得非常重要。

在一个例子中,我想做以下

  1. 将文件写入文件系统
  2. 在 Solr/Lucene 上创建索引
  3. 将记录插入数据库。

在上述情况下,如果数据库插入失败并发生重试,那么我们可以将数据覆盖到文件系统以及索引引擎上。因为您不希望出现在服务器崩溃的情况下您有数据库记录并且没有数据存储在文件系统中的情况。

现在,如果搜索主要由搜索引擎提供服务,那么它可能具有数据库中不存在相应记录的陈旧数据。这意味着跨数据存储存在一致性问题。

我相信需要某种状态引擎,它可以了解数据存储中每条记录的状态,直到最后一次提交,并且能够清理过时的数据。

我想知道有没有其他方法来处理这个?对于跨多个数据存储的数据插入和更新,还有哪些其他技术可以处理这种情况?

4

1 回答 1

1

显然,您的问题描述了一个非常复杂的场景。跨多个数据存储写入数据并希望写入在所有系统中都是事务性的。

我可以想到三种方法来做到这一点。

使用服务总线

Mule ESB ( http://www.mulesoft.org/ ) 提供了自己的事务功能,让您可以相当轻松地将数据写入多个系统。

困难的部分是在其中一个写入失败的情况下实施回滚策略。但是 Mule 绝对是我的第一个想法,因为它与许多系统有很好的集成,并且它支持事务的想法。

将记录标记为脏

第二种方法是为每个系统中的每条记录引入一个脏标志。当您开始事务时,您写入数据并将每个系统中的每个记录的“脏”标志设置为 1。

如果所有写入都成功,那么您需要返回并将标志设置为 0。如果失败,返回并删除任何脏的东西是相当容易的。

对于读取,您永远不会读取任何脏的东西。

如果您正在写入四条数据,您可以写入三条,第四条失败,而不是重新执行整个事务,您可以继续重试第四条,直到它成功。然后返回并将所有内容标记为脏=0。

Java JTA

http://en.wikipedia.org/wiki/Java_Transaction_API。如果您可以将所有内容包装在 X/Open XA 架构中,那么这可能会奏效。

于 2013-07-16T16:18:32.647 回答