python - python - 将numpy数组保存到文件（可能的最小尺寸）

Question

现在我有一个 python 程序构建一个相当大的 2D numpy 数组并使用 numpy.savetxt 将其保存为制表符分隔的文本文件。numpy 数组仅包含浮点数。然后我在一个单独的 C++ 程序中一次读取一行文件。

我想做的是找到一种方法来完成同样的任务，尽可能少地更改我的代码，这样我就可以减小在两个程序之间传递的文件的大小。

我发现我可以使用 numpy.savetxt 保存到压缩的 .gz 文件而不是文本文件。这将文件大小从 ~2MB 降低到 ~100kB。

有一个更好的方法吗？也许，我可以将二进制的 numpy 数组写入文件以节省空间吗？如果是这样，我将如何做到这一点，以便我仍然可以将其读入 C++ 程序？

感谢您的帮助。我很感激我能得到的任何指导。

编辑：

有很多零（可能 numpy 数组中 70% 的值是 0.0000）我不知道如何以某种方式利用它并生成一个我的 c++ 程序可以读取的小文件

score 3 · Accepted Answer

除非您确定不需要担心字节顺序等问题，否则最好使用numpy.savez，如@unutbu 的回答和@jorgeca 的评论中所述：numpy's tostring/fromstring --- 我需要指定什么来恢复数组。

如果结果大小不够小，总是有zlib（在 python 方面：import zlib，在 C++ 方面，我确信存在一个实现）。

另一种方法是使用hdf5格式：虽然它不一定会减少磁盘上的文件大小，但它确实可以更快地保存/加载（这是格式的设计目的，大型数据数组）。有用于hdf5.

score 3 · Accepted Answer

由于你有很多零，你只能写出表单中的非零元素（索引，数字）。

假设您有一个包含少量非零数字的数组：

In [5]: a = np.zeros((10, 10))

In [6]: a
Out[6]: 
array([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]])

In [7]: a[3,1] = 2.0

In [8]: a[7,4] = 17.0

In [9]: a[9,0] = 1.5

首先，分离出有趣的数字及其索引：

In [11]: x, y = a.nonzero()

In [12]: zip(x,y)
Out[12]: [(3, 1), (7, 4), (9, 0)]

In [13]: nonzero = zip(x,y)

现在您只剩下少量数据元素了。最简单的方法是将它们写入文本文件：

In [17]: with open('numbers.txt', 'w+') as outf:
   ....:     for r, k in nonzero:
   ....:         outf.write('{:d} {:d} {:g}\n'.format(r, k, a[r,k]))
   ....:         

In [18]: cat numbers.txt
3 1 2
7 4 17
9 0 1.5

这也让您有机会观察数据。在您的 C++ 程序中，您可以使用fscanf.

但是您可以通过使用struct写入二进制数据来进一步减小大小：

In [17]: import struct

In [19]: c = struct.Struct('=IId')

In [20]: with open('numbers.bin', 'w+') as outf:
   ....:     for r, k in nonzero:
   ....:         outf.write(c.pack(r, k, a[r,k]))

构造函数的参数Struct意味着；使用本机日期格式“=”。第一个和第二个数据元素是无符号整数“I”，第三个元素是双精度“d”。

在您的 C++ 程序中，最好将此数据作为二进制数据读取到打包的struct.

编辑：为二维数组更新答案。

score 1 · Accepted Answer

使用 hdf5 文件，通过 h5py 使用它们非常简单，您可以使用设置压缩标志。请注意，hdf5 还有一个 c++ 接口。

score 1 · Accepted Answer

numpy.ndarray.tofile并且numpy.fromfile对于来自 python 的直接二进制输出/输入很有用。 std::ostream::write std::istream::read对于 c++ 中的二进制输出/输入很有用。

如果数据从一台机器传输到另一台机器，您应该注意字节顺序。

score 0 · Accepted Answer

如果您不介意安装额外的包（对于python和c++），您可以使用[BSON][1](Binary JSON)。

python - python - 将numpy数组保存到文件（可能的最小尺寸）

5 回答 5

Related

Reference