我有小型图像托管,我意识到有很多重复的内容。我想在未来通过使用校验和或哈希码来消除这个问题,与现有的图像哈希数据库相比,新上传的文件将被哈希,如果它已经存在则删除,并且用户将看到现有的图像链接。一站式服务
我的设置是准系统 Node.js+ jQuery File Upload +2 个目录(一个用于论坛上传,另一个用于直接网络上传)。
考虑到每个目录中可能有数千或数百万个文件的可能性,对我来说最好的(快速和可靠的)哈希和数据库设置是什么?我认为 MD5 或 SHA1 太过分了,可能会占用大量资源。我想知道是否有更简单的解决方案。
统计数据:
每天上传~1,000 张图片
~400 kb 平均图片大小
~35,000 张服务器中的图片
~30% 重复内容(使用 MD5 测试)