我想知道在涉及数据库和文件系统的多个数据存储中处理事务的最佳方式是什么?
这是场景:
考虑我有一个系统,其中我必须存储包含文本和二进制文件的数据。文本提供元数据信息,二进制数据是要存储的实际数据。此外,数据应该可以根据客户端设置的元数据进行搜索。
这带来了以 3 种形式存储数据的架构 1. 将二进制数据存储到文件系统 2. RDBMS 中的记录,包含指向文件系统上二进制数据的指针(id,位置) 3. 索引中的记录像 Solr/Lucene 这样的引擎,用于基于元数据的搜索需求。
请注意,使用 RDBMS 是为了提高可靠性,以便在 Solr/Lucene 索引损坏的情况下可以进行重新索引。
上述场景中的挑战在于它们中的每一个都是不同的数据存储并且有自己的事务行为。RDBMS 为我提供了事务能力,但其他两个没有。
现在的问题是,我想创建跨多个数据存储的事务行为。这意味着任何数据存储中的故障都应该恢复其他两个上的更改。
它还提出了一个问题,即哪个应该是必须从哪里搜索信息的主数据存储,因此数据存储到每个数据存储中的顺序将变得非常重要。
在一个例子中,我想做以下
- 将文件写入文件系统
- 在 Solr/Lucene 上创建索引
- 将记录插入数据库。
在上述情况下,如果数据库插入失败并发生重试,那么我们可以将数据覆盖到文件系统以及索引引擎上。因为您不希望出现在服务器崩溃的情况下您有数据库记录并且没有数据存储在文件系统中的情况。
现在,如果搜索主要由搜索引擎提供服务,那么它可能具有数据库中不存在相应记录的陈旧数据。这意味着跨数据存储存在一致性问题。
我相信需要某种状态引擎,它可以了解数据存储中每条记录的状态,直到最后一次提交,并且能够清理过时的数据。
我想知道有没有其他方法来处理这个?对于跨多个数据存储的数据插入和更新,还有哪些其他技术可以处理这种情况?