在寻找长期存储大量数据(主要来自数值计算)的好选择时,我开始使用xz
存档格式 ( tar.xz
)。tar.gz
与更常见的(都具有合理的压缩选项)相比,那里的默认 LZMA 压缩提供了明显更好的存档大小(对于我的数据类型)。
然而,关于长期使用的安全性的第一次谷歌搜索xz
,到达了以下具有标题的网页(来自 的开发者之一)lzip
Xz 格式不适合长期存档
列出几个原因,包括:
xz
是一种容器格式,而不是前面有必要标头的简单压缩数据xz
格式碎片- 不合理的可扩展性
- 糟糕的报头设计和缺乏字段长度保护
- 4 字节对齐和到处使用填充
- 无法将尾随数据添加到已创建的存档中
xz
错误检测的多个问题- 没有数据恢复选项
虽然有些担忧似乎有点人为,但我想知道,是否有充分的理由不将xz
其用作长期存档的存档格式。
xz
如果我选择作为文件格式,我应该注意什么?(我想,即使 30 年后,访问xz
程序本身也不应该成为问题)
几点注意事项:
- 存储的数据是数值计算的结果,其中一些在不同的会议和期刊上发表。虽然存储结果并不一定意味着研究可重复性,但它是一个重要组成部分。
- 虽然使用更标准
tar.gz
甚至更普通zip
的可能是一个更明显的选择,但能够减少大约 30% 的存档大小对我来说非常有吸引力。