4

现在,法律要求我们将公司的所有财务文件数字化,并每 3 个月提交一次评估。

由于这是敏感数据,我们决定自己动手并构建某种数字数据存档器。该工具运行良好,但使用 7 个月后,我们开始担心这些图像使用的磁盘空间。

这里有一些关于数字化文件数量的信息:

  • 每天扫描和存档 15K 文档,最终 PNG 大小为 +- 860KB:15 000 * 860 KB = 1.53779984 GB
  • 每月工作 30 天:1.53779984 GB * 30 = 46.1339952 GB
  • 1 年后的预期磁盘空间使用量:46.1339952 GB * 12 = 553.607942 GB

到目前为止,我们使用了 424 GB 的磁盘空间,不包括备份。我们使用PNG作为图像格式,但我想知道是否有人对更好的图像压缩算法或压缩PNG的更多甚至更好的压缩图像以节省磁盘空间的方法有任何建议。

任何帮助将不胜感激,谢谢。

4

3 回答 3

3

使用DjVu会更好,这是一种相对较新的格式,专为压缩扫描文档而设计。它适用于黑白、灰度和彩色文档。它将前景/背景分离与复杂的小波压缩方案相结合。如果您获得商业版本,我相信您也可以获得您的文档 OCR,以便您可以搜索它们,但是有一个完全开源的版本,称为DjVuLibre

于 2010-06-03T02:40:28.997 回答
2

大概这些文件不需要一直在线。如果是这种情况,根据您提供的信息,我看不出您需要更改工作流程的任何理由。

PNG是一种广泛支持的无损(zlib)压缩格式,我猜你正在使用它。如果您不需要无损压缩,只要您适当地调整压缩比,好的 ole JPEG 将以较小的质量损失为代价为您提供更严格的压缩。JPEG2000 可能是另一种选择,具体取决于您的软件堆栈。LZW 压缩的 TIFF 除了支持每像素 16 位(您可能不需要)之外,没有提供比 PNG 更大的优势。其他选项包括专有的专业编解码器(如 MrSID)​​,它可以对超大文件提供极好的压缩,但需要付出代价。

由于这些是扫描文档,我想我会将 PDF 视为对其进行编码的“自然”格式。PDF 根据文件的内容提供多种压缩选项。但我不会竭尽全力修复没有损坏的东西。

如果您考虑一下您现在在驱动器空间上的花费,那么每天 1.5 GB 根本不算什么。驱动空间很便宜,而且不断变得更便宜。只需每 6 个月购买三个新的 1 TB USB 驱动器(主/备份/异地备份),总成本为 240 美元或其他。即使是磁带备份也不是没有道理的。

于 2010-06-03T00:03:50.327 回答
0

每年 500 Gb 并不多,而且硬盘每年都在变得更便宜

于 2010-06-03T03:03:24.897 回答