python - numpy 内存映射上随机切片的效率

Question

我有一个 20GB、100k x 100k 'float16' 2D 数组作为数据文件。我将它加载到内存中，如下所示：

fp_read = np.memmap(filename, dtype='float16', mode='r', shape=(100000, 100000))

然后我尝试从中读取切片。我需要采取的垂直切片实际上是随机的，但性能很差，或者我做错了什么？

分析：

我对比了其他形式的横截面切片，虽然不知道为什么会这样，但效果要好得多：

%timeit fp_read[:,17000:17005]    # slice 5 consecutive cols
1.64 µs ± 16.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%timeit fp_read[:,11000:11050:10]
1.67 µs ± 21 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%timeit fp_read[:,5000:6000:200]
1.66 µs ± 27.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%timeit fp_read[:,0:100000:20000]    # slice 5 disperse cols
1.69 µs ± 14.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

%timeit fp_read[:,[1,1001,27009,81008,99100]]     # slice 5 rand cols
32.4 ms ± 10.9 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

a = np.arange(100000); b = np.array([1,1001,27009,81008,99100])
%timeit fp_read[np.ix_(a,b)]
18 ms ± 142 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

即使是这些 timeit 函数也不能准确地捕捉到性能下降，因为：

import time
a = np.arange(100000)
cols = np.arange(100000)
np.random.shuffle(cols)
cols = np.sort(cols[:5])
t = time.time()
arr = fp_read[np.ix_(a,cols)]
print('Actually took: {} seconds'.format(time.time() - t))
Actually took: 24.5 seconds

和....相比：

t = time.time()
arr = fp_read[:,0:100000:20000]
print('Actually took: {} seconds'.format(time.time() - t))
Actually took 0.00024 seconds

score 5 · Accepted Answer

性能差异可以通过“基本切片和索引”与“高级索引”的一个关键差异来解释，请参阅这些文档。这里的关键是

高级索引总是返回数据的副本（与返回视图的基本切片相反）。

fp_read[:,5000:6000:200]与相比，副本伤害多少可以看出fp_read[:,5000:6000:200].copy()。

虽然制作数组副本总是比制作新视图慢，但对于 memmap 来说尤其糟糕：

从磁盘读取相对较慢。需要从磁盘读取数据以进行（内存中）副本，而视图根本不需要读取任何数据！只是使用内存缓冲区的新偏移量和步长（步幅）参数创建了一个新的 ndarray 对象。
数据的内存布局是行优先顺序（相对于列优先，请参阅wikipedia）。对于访问随机列，这意味着必须从磁盘中读取每个数据值的扇区。将其与连续访问相比，每 256 个值只读取一个扇区（假设 float16 和 512 字节扇区）。使用内存映射 io 时，这种效果会更糟，因为数据是在 4kB 的块（内存页）中读取的，因此是 8 x 512 字节的扇区。

现在我们也可以理解为什么 timeit 结果并没有真正的代表性：文件的特定部分被操作系统缓存在内存中。

python - numpy 内存映射上随机切片的效率

1 回答 1

Related

Reference