0

我正在对大型图像数据集执行信号处理任务,将图像转换为具有特定结构的大型特征向量(number_of_transforms, width, height, depth)

特征向量(或coefficients在我的代码中)太大而无法一次保存在内存中,所以我尝试将它们写入 a np.mmap,如下所示:

coefficients = np.memmap(
    output_location, dtype=np.float32, mode="w+",
    shape=(n_samples, number_of_transforms, width, height, depth))

for n in range(n_samples):
    image = images[n]
    coefficients_sample = transform(images[n])
    coefficients[n, :, :, :, :] = coefficients_sample

这适用于我的目的,但有一个缺点:如果我想稍后加载某个“运行”的系数(transform必须使用不同的超参数进行测试)进行分析,我必须以某种方式重建原始形状(number_of_transforms, width, height, depth),即必然会变得混乱。

是否有更清洁(最好与 numpy 兼容)的方式,允许我保留transform特征向量的结构和数据类型,同时仍间歇性地将结果写入transform磁盘?

4

1 回答 1

0

正如@juanpa.arrivillaga 所指出的,唯一需要做的改变是使用numpy.lib.format.open_memmap而不是np.memmap

coefficients = numpy.lib.format.open_memmap(
    output_location, dtype=np.float32, mode="w+",
    shape=(n_samples, number_of_transforms, width, height, depth))

稍后,检索数据(具有正确的形状和数据类型),如下所示:

coefficients = numpy.lib.format.open_memmap(output_location)
于 2017-11-10T10:13:27.087 回答