我有许多大的 1GB+ doubles
(浮点数)矩阵,其中许多0.0
需要有效存储。我打算保留该double
类型,因为某些元素确实需要是 a double
(但如果它可以节省大量空间,我可以考虑更改它)。字符串标头是可选的。矩阵没有缺失元素、NaN、NA、空值等:它们都是doubles
.
有些列会稀疏,有些则不会。稀疏列的比例因文件而异。
什么是 CSV 的节省空间的替代方案?对于我的使用,我需要将此矩阵快速解析为R
,python
和 Java
,因此特定于单一语言的文件格式是不合适的。访问可能需要按行或按列。
我也不是在寻找商业解决方案。
我的主要目标是节省硬盘空间而不会耗尽io
时间。导入后的 RAM 使用情况不是主要考虑因素。