我正在使用 h5py 和 s3fs 的以下组合从 Amazon S3 上的较大 HDF5 文件中读取几个小数据集。
s3 = s3fs.S3FileSystem()
h5_file = h5py.File(s3.open(s3_path,'rb'), 'r')
data = h5_file.get(dataset)
这些读取速度相对较慢,似乎以这种方式读取单个数据集与在本地从 S3 存储桶复制整个文件然后读取数据集一样慢。我认为原因是 h5py 通过 s3fs 发送的查找和读取命令有很多开销。
有没有人有一个更优化方法的想法?(除了下载文件然后读取它,如果我想读取多个数据集会更快,但仍然太慢)
谢谢!
伊曼纽尔