不确定这个问题是否有意义/是否相关 wrt zarr。我将 zarr 数据分组存储在磁盘上,例如我有
group = zarr.group()
d1 = group.create_dataset('baz', shape=100, chunks=10)
d2 = group.create_dataset('foo', shape=100, chunks=10)
现在 group 是可迭代的,所以我可以迭代它并从所有组中读取数据:
all_data = [group[g][:] for g in group]
有没有办法使用多线程从组中读取所有数据以加快速度?我知道在数组中您可以使用多线程来读取和写入数据。
假设按组读取数据对我来说太慢了,我应该将所有组放入一个数据数组容器中吗?我想我想知道除了组织容器之外,组的功能是什么。因为假设每个组包含相似的数据,理论上您可以将另一个轴添加到您的 numpy 数组(对于组)并将所有组存储在一个大数组中。