我正在考虑使用 HDFS 作为我们客户端视频托管服务的水平扩展文件存储系统。我主要担心 HDFS 不是为此需求而开发的,这更像是“当前在需要处理大量数据的情况下使用的开源系统”。我们不想处理数据只是存储它们,在 HDFS 的基础上创建类似于小型内部 Amazon S3 模拟的东西。
可能重要的时刻是存储的文件大小将从 100Mb 到 10Gb 相当 git。
有没有人将 HDFS 用于此类目的?
如果您使用的是 S3 等效项,那么它应该已经提供了一个分布式的、可挂载的文件系统,不是吗?也许您可以在http://openstack.org/projects/storage/上查看 OpenStack 。
为此,您可能需要考虑使用 MongoDB。他们有 GridFS,这将允许您将其用作存储。然后,您可以通过分片水平扩展存储,并通过复制提供容错。