python - Zarr 多线程读取组

Question

不确定这个问题是否有意义/是否相关 wrt zarr。我将 zarr 数据分组存储在磁盘上，例如我有

group = zarr.group()
d1 = group.create_dataset('baz', shape=100, chunks=10)
d2 = group.create_dataset('foo', shape=100, chunks=10)

现在 group 是可迭代的，所以我可以迭代它并从所有组中读取数据：

all_data = [group[g][:] for g in group]

有没有办法使用多线程从组中读取所有数据以加快速度？我知道在数组中您可以使用多线程来读取和写入数据。

假设按组读取数据对我来说太慢了，我应该将所有组放入一个数据数组容器中吗？我想我想知道除了组织容器之外，组的功能是什么。因为假设每个组包含相似的数据，理论上您可以将另一个轴添加到您的 numpy 数组（对于组）并将所有组存储在一个大数组中。

score 1 · Accepted Answer

组主要用作组织容器。一个组可以包含任意数量的数组，其中每个数组可能具有不同的形状和/或数据类型，因此它们是一种组织数据的灵活方式。如果您的数组都是相同的形状和数据类型，那么您可以按照您的建议将它们全部堆叠成一个多维数组。但是，如果数据总量相同，我不认为读取速度会有很大差异，无论您是一组中的多个数组还是单个数组中的所有数据。

如果要将组中的所有数组读入内存，并且使用默认压缩器（Blosc），那么在解压缩期间这将已经使用多个线程。Blosc 通常在利用可用内核方面做得很好，因此如果添加任何进一步的多线程，您可能无法提高很多。

python - Zarr 多线程读取组

1 回答 1

Related

Reference