我正在使用 xarray 读取一些(显然)大型 grib 文件。我说“显然”是因为它们每个大约 100MB,这对我来说似乎并不太大。然而,运行
import xarray as xr
ds = xr.open_dataset("gribfile.grib", engine="cfgrib")
需要5-10分钟。更糟糕的是,读取其中一个占用了近 4GB 的 RAM——考虑到 xarray 应该做的延迟加载,这让我感到惊讶。尤其是这是原始文件大小的 40 倍!
这种阅读时间和 RAM 使用似乎过多,并且无法扩展到我必须阅读的 24 个文件。
我试过使用 dask 和xr.open_mfdataset
,但是当单个文件很大时,这似乎没有帮助。有什么建议么?
附录:数据集打开后看起来像这样:
<xarray.Dataset>
Dimensions: (latitude: 10, longitude: 10, number: 50, step: 53, time: 45)
Coordinates:
* number (number) int64 1 2 3 4 5 6 7 8 9 ... 42 43 44 45 46 47 48 49 50
* time (time) datetime64[ns] 2011-01-02 2011-01-04 ... 2011-03-31
* step (step) timedelta64[ns] 0 days 00:00:00 ... 7 days 00:00:00
surface int64 0
* latitude (latitude) float64 56.0 55.0 54.0 53.0 ... 50.0 49.0 48.0 47.0
* longitude (longitude) float64 6.0 7.0 8.0 9.0 10.0 ... 12.0 13.0 14.0 15.0
valid_time (time, step) datetime64[ns] 2011-01-02 ... 2011-04-07
Data variables:
u100 (number, time, step, latitude, longitude) float32 6.389208 ... 1.9880934
v100 (number, time, step, latitude, longitude) float32 -13.548858 ... -3.5112982
Attributes:
GRIB_edition: 1
GRIB_centre: ecmf
GRIB_centreDescription: European Centre for Medium-Range Weather Forecasts
GRIB_subCentre: 0
history: GRIB to CDM+CF via cfgrib-0.9.4.2/ecCodes-2.9.2 ...
我通过一个接一个地读取 grib 文件并将它们作为 netcdf 写入磁盘暂时解决了这个问题。xarray 然后按预期处理 netcdf 文件。显然,不必这样做会很好,因为它需要很长时间 - 到目前为止我只做了 4 次。