c - 用于同步多个项目集合的高效数据结构和策略

Question

我想要一个单一类型的项目的主要集合，随着时间的推移对其进行修改。周期性地，几个从属集合将与主集合同步。主集合应该将项目的增量发送到从集合。

Primary Collection: A, C, D
Slave Collection 1: A, C    (add D)
Slave Collection 2: A, B    (add C, D; remove B)

从属集合不能自己添加或删除项目，它们可能存在于不同的进程中，所以我可能会使用管道来推送数据。

我不想推送比必要更多的数据，因为集合可能会变得非常大。

什么样的数据结构和策略最适合这个？

score 1 · Accepted Answer

如果不推送所有数据，则需要某种日志，而不是使用管道带宽，而是使用主内存。在 CPU 和内存使用之间找到良好平衡的参数将是“推送”频率。
根据您的问题，我假设您有多个从属进程。在这种情况下，一些在主进程中具有双缓冲的共享内存或CMA (Linux) 方法应该远远优于多个管道，因为它甚至不需要多线程推送，这将用于优化同步期间的整体管道吞吐量。
从属进程可以使用全局同步屏障来通知从 masterCollectionA 读取而不复制，而 master 修改 masterCollectionB（使用来自 masterCollectionA 的副本初始化），反之亦然。对集合的访问应该在从属和主控之间互锁。从属服务器可以复制该集合（快照），如果他们阻止它超过来自主服务器的下一次更新尝试，从而允许它继续。从属进程中的修改可以通过单个元素的写入时复制策略来实现。这种协作方式实现起来相当简单，并且如果从属进程不每次都复制整个快照，则整体内存消耗很低。

score 1 · Accepted Answer

为此，我使用差异执行。

（顺便说一句，“奴隶”这个词对某些人来说是有道理的。）

对于每个远程站点，主站点都有一个顺序文件，表示远程站点上存在的内容。

主站点有一个遍历主集合的过程，当它遍历时，它会读取相应的文件，检测远程站点上当前存在的内容与应该存在的内容之间的差异。这些差异会产生增量，并将其传输到远程站点。同时，该过程写入一个新文件，表示处理增量后远程站点将存在的内容。

这样做的好处是它不依赖于检测主集合中的更改事件，因为这些更改事件通常是不可靠的，或者可以自行取消或与其他更改无关，因此您可以减少到远程站点的不必要传输.

在集合是简单的事物列表的情况下，这归结为拥有远程集合的本地副本并运行diff算法来获取增量。这里有几个这样的算法：

如果可以对集合进行排序（例如您的 A、B、C 示例），只需运行合并循环：

while(ix<nx && iy<ny){
  if (X[ix] < Y[iy]){
    // X[ix] was inserted in X
    ix++;
  } else if (Y[iy] < X[ix]){
    // Y[iy] was deleted from X
    iy++;
  } else {
    // the two elements are equal. skip them both;
    ix++; iy++;
  }
}
while(ix<nx){
  // X[ix] was inserted in X
  ix++;
}
while(iy<ny>){
  // Y[iy] was deleted from X
  iy++;
}

如果无法对集合进行排序（注意与Levenshtein distance的关系），

Until we have read through both collections X and Y,
  See if the current items are equal

  else see if a single item was inserted in X
  else see if a single item was deleted from X

  else see if 2 items were inserted in X
  else see if a single item was replaced in X
  else see if 2 items were deleted from X

  else see if 3 items were inserted in X
  else see if 2 items in X replaced 1 items in Y
  else see if 1 items in X replaced 2 items in Y
  else see if 3 items were deleted from X

  etc. etc. up to some limit

性能通常不是问题，因为该过程不必以高频率运行。

有一个演示此概念的粗略视频，以及用于动态更改用户界面的源代码。

c - 用于同步多个项目集合的高效数据结构和策略

2 回答 2

Related

Reference