python - Dask - 创建空数组以填充并保存它

Question

我想创建一个巨大的（> 100GB）dask 数组，然后用我计算的值填充它。然后我想将其保存为 hdf5 文件。我选择了这是我的代码：

import dask.array as da

size = 100000
chunks = 50000
file_path = "..."

# calculate entries
A = da.zeros(shape=(size, size), chunks=(chunks, chunks))
for i in range(size):
    for j in range(size):
        A[i,j] = compute_value(i,j)

# store in FS
f = h5py.File(file_path)
dset = f.create_dataset('/data', shape=A.shape, chunks=(chunks, chunks), dtype='f8')
da.store(A, dset)

我在分配 A[i,j] 处得到错误：

NotImplementedError: Item assignment with <class 'tuple'> not supported

请注意，此数组太大而无法放入 RAM中。因此它应该以某种方式将数组保存为全零，然后用计算值更新这个保存的矩阵。在 dask 中这样做的正确方法是什么？

谢谢你的帮助！

score 3 · Accepted Answer

它首先以 hdf5 格式保存矩阵，然后更改值。这是代码：

size = 100000
chunks = 5000
file_path = "..."

A = da.zeros(shape=(size, size), chunks=(chunks, chunks))
with h5py.File(file_path, 'w') as f:
    dset = f.create_dataset('/data', shape=A.shape, chunks=(chunks, chunks), dtype='f8')
    da.store(A, dset)
    for i in range(size):
        for j in range(size):
            dset[i,j] = random.randint(0,101)

这可以稍后加载和使用，例如如下：

with h5py.File(file_path, 'r') as f:
    A = da.from_array(f["/data"], chunks=(chunks, chunks))
    x = da.linalg.solve(A, b)
    res = x.compute()

python - Dask - 创建空数组以填充并保存它

1 回答 1

Related

Reference