2

对于 owncloud(或 nextcloud)项目,我们需要添加大量存储,我一直在检查所有选项,例如:CEPH、Openstack Swift/Cinder、GlusterFS、SDFS 和 Tahoe-lafs。

有了这项服务,我们希望用户添加许多相同的文件,这就是重复数据删除对我们来说非常重要的原因。到目前为止,集群存储数据重复数据删除的唯一解决方案是 SDFS 和 Tahoe-lafs。然而,我们担心这两个是 Java 和 Python,它们会对 CPU 造成很大的伤害。(*是的,重复数据删除也可能意味着更多的 RAM 和 CPU)

也许你们中的一个人有更好的解决方案?*重复数据删除文件系统(例如 ZSF)将无法工作,因为数据存储在多台机器(HA 集群)上。

4

1 回答 1

1

这不是我认为您正在寻找的完整解决方案,而是 Node.js 的开源重复数据删除库,具有用 C++ 编写的本机绑定和用 Javascript 编写的参考实现:

https://github.com/ronomon/deduplication

如果您可以使用 LSM-Tree 支持的 KV 存储自己实现索引,它应该足够快。

于 2017-08-30T06:43:51.247 回答