如果我有一百万张图像,最好将它们存储在某个文件夹/子文件夹层次结构中,还是直接将它们全部转储到一个存储桶中(没有任何文件夹)?
将所有图像转储到无层次结构的存储桶中会减慢 LIST 操作吗?
动态创建文件夹和子文件夹并设置它们的 ACL(以编程方式)是否有很大的开销?
如果我有一百万张图像,最好将它们存储在某个文件夹/子文件夹层次结构中,还是直接将它们全部转储到一个存储桶中(没有任何文件夹)?
将所有图像转储到无层次结构的存储桶中会减慢 LIST 操作吗?
动态创建文件夹和子文件夹并设置它们的 ACL(以编程方式)是否有很大的开销?
S3 不尊重分层命名空间。每个存储桶仅包含许多从键到对象的映射(以及关联的元数据、ACL 等)。
即使您的对象的键可能包含“/”,S3 仍将路径视为纯字符串并将所有对象放在平面名称空间中。
以我的经验,随着对象数量的增加,LIST 操作确实需要(线性)更长的时间,但这可能是 Amazon 服务器上所需的 I/O 增加的症状,并向下连接到您的客户端。
然而,查找时间似乎并没有随着对象数量的增加而增加——它很可能是某种 O(1) 哈希表实现——因此在同一个存储桶中拥有许多对象应该与正常使用的小存储桶一样具有性能(即不是列表)。
至于 ACL,可以在存储桶和每个单独的对象上设置授权。由于没有层次结构,它们是您仅有的两个选择。显然,如果您有数百万个文件,设置尽可能多的存储桶范围授权将大大减少您的管理员头痛,但请记住,您只能授予权限,不能撤销它们,因此存储桶范围的授权应该是所有 ACL 的最大子集它的内容。
我建议将其拆分为单独的存储桶:
对原始问题“S3 中每个目录的最大文件数”的回答是:无限制。另请参阅S3 对存储桶中对象的限制。
我使用带有根目录的目录结构,然后至少使用一个子目录。我经常使用“文档导入日期”作为根目录下的目录。这可以使管理备份更容易一些。无论您使用什么文件系统,最终都必然会达到文件计数限制(如果不是物理限制的话,这是一个实用的限制)。您也可以考虑支持多个根。