我正在寻找一种将大量机器(数百台)与远程存储库同步的方法。
该存储库由小文件(大约 20KB)组成,但总数达到几 GB,并且随着时间的推移继续增长。
目标是让远程存储库中的更改尽可能快(不超过 2 秒)传播到所有机器。(同步)
有一些工具可以提供这种功能,例如S3 同步或Rclone,但有一个主要缺点:
同步命令将需要枚举存储桶中的所有文件,以确定存储桶中是否已经存在本地文件,以及它是否与本地文件相同。存储桶中的文件越多,所需的时间就越长。这意味着一旦桶变大,即使是很小的变化也会花费很多时间。
我想知道是否有一种方法(工具或方法)可以只同步修改过的文件,而不必遍历所有文件。您可以想象源数据和远程元数据的比较,确定差异是什么并采取相应措施。
你会怎么做?