python - 从 HDF5 文件列表创建 dask 数据帧

Question

从 HDF5 文件列表创建 dask.dataframe 的正确方法是什么？我基本上想这样做，但使用数据框

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)

score 1 · Accepted Answer

简而言之，如果您的个人文件可以读取，pd.read_hdf那么您可以使用dd.read_hdf和来执行此操作dd.concat。

import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)

但是直接在内部支持这个习语会很有用（也很容易）dd.read_hdf。我为此创建了一个问题，并将在接下来的几天内尝试解决它。

python - 从 HDF5 文件列表创建 dask 数据帧

1 回答 1

Related

Reference