python - 读取 s3fs 文件对象时，h5py 很慢

翻译自：https://stackoverflow.com/questions/67325341 2021-04-29T21:33:04.670

167 次

我正在使用 h5py 和 s3fs 的以下组合从 Amazon S3 上的较大 HDF5 文件中读取几个小数据集。

s3 = s3fs.S3FileSystem()
h5_file = h5py.File(s3.open(s3_path,'rb'), 'r')
data = h5_file.get(dataset)

这些读取速度相对较慢，似乎以这种方式读取单个数据集与在本地从 S3 存储桶复制整个文件然后读取数据集一样慢。我认为原因是 h5py 通过 s3fs 发送的查找和读取命令有很多开销。

有没有人有一个更优化方法的想法？（除了下载文件然后读取它，如果我想读取多个数据集会更快，但仍然太慢）

谢谢！

伊曼纽尔

0 回答 0