15

我有一个非常大的 netCDF 文件,我正在使用 python 中的 netCDF4 读取它

我不能一次全部读取这个文件,因为它的尺寸(1200 x 720 x 1440)对于整个文件来说太大而无法一次在内存中。第 1 个维度代表时间,接下来的 2 个维度分别代表纬度和经度。

import netCDF4 
nc_file = netCDF4.Dataset(path_file, 'r', format='NETCDF4')
for yr in years:
    nc_file.variables[variable_name][int(yr), :, :]

然而,一次读一年是极其缓慢的。对于以下用例,我如何加快速度?

- 编辑

块大小为 1

  1. 我可以读取一系列年份:nc_file.variables[variable_name][0:100, :, :]

  2. 有几个用例:

    以年为单位:

    numpy.ma.sum(nc_file.variables[variable_name][int(yr), :, :])
    

# Multiply each year by a 2D array of shape (720 x 1440)
for yr in years:
    numpy.ma.sum(nc_file.variables[variable_name][int(yr), :, :] * arr_2d)

# Add 2 netcdf files together 
for yr in years:
    numpy.ma.sum(nc_file.variables[variable_name][int(yr), :, :] + 
                 nc_file2.variables[variable_name][int(yr), :, :])
4

3 回答 3

30

我强烈建议您查看xarraydask项目。使用这些强大的工具将允许您轻松地将计算拆分为块。这带来了两个优势:您可以计算无法放入内存的数据,并且您可以使用机器中的所有内核以获得更好的性能。You can optimize the performance by appropriately choosing the chunk size (see documentation ).

您可以通过执行以下简单操作从 netCDF 加载数据

import xarray as xr
ds = xr.open_dataset(path_file)

如果要沿时间维度以年为单位分块数据,则指定chunks参数(假设年坐标名为“年”):

ds = xr.open_dataset(path_file, chunks={'year': 10})

由于其他坐标没有出现在chunks字典中,因此将使用单个块。(请参阅此处的文档中的更多详细信息。)。这对于您的第一个要求很有用,您希望每年乘以 2D 数组。您只需执行以下操作:

ds['new_var'] = ds['var_name'] * arr_2d

现在,xarray并且正在懒惰地dask计算您的结果。为了触发实际计算,您可以简单地要求将结果保存回 netCDF:xarray

ds.to_netcdf(new_file)

计算通过 触发dask,它负责将处理分成块,从而可以处理不适合内存的数据。此外,dask将负责使用所有处理器内核来计算块。

和项目仍然不能很好xarraydask处理块不能很好地“对齐”以进行并行计算的情况。由于在这种情况下,我们仅在“年份”维度中进行了分块,因此我们预计不会有任何问题。

如果你想把两个不同的 netCDF 文件加在一起,很简单:

ds1 = xr.open_dataset(path_file1, chunks={'year': 10})
ds2 = xr.open_dataset(path_file2, chunks={'year': 10})
(ds1 + ds2).to_netcdf(new_file)

我使用在线可用的数据集提供了一个完整的工作示例。

In [1]:

import xarray as xr
import numpy as np

# Load sample data and strip out most of it:
ds = xr.open_dataset('ECMWF_ERA-40_subset.nc', chunks = {'time': 4})
ds.attrs = {}
ds = ds[['latitude', 'longitude', 'time', 'tcw']]
ds

Out[1]:

<xarray.Dataset>
Dimensions:    (latitude: 73, longitude: 144, time: 62)
Coordinates:
  * latitude   (latitude) float32 90.0 87.5 85.0 82.5 80.0 77.5 75.0 72.5 ...
  * longitude  (longitude) float32 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0 ...
  * time       (time) datetime64[ns] 2002-07-01T12:00:00 2002-07-01T18:00:00 ...
Data variables:
    tcw        (time, latitude, longitude) float64 10.15 10.15 10.15 10.15 ...

In [2]:

arr2d = np.ones((73, 144)) * 3.
arr2d.shape

Out[2]:

(73, 144)

In [3]:

myds = ds
myds['new_var'] = ds['tcw'] * arr2d

In [4]:

myds

Out[4]:

<xarray.Dataset>
Dimensions:    (latitude: 73, longitude: 144, time: 62)
Coordinates:
  * latitude   (latitude) float32 90.0 87.5 85.0 82.5 80.0 77.5 75.0 72.5 ...
  * longitude  (longitude) float32 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0 ...
  * time       (time) datetime64[ns] 2002-07-01T12:00:00 2002-07-01T18:00:00 ...
Data variables:
    tcw        (time, latitude, longitude) float64 10.15 10.15 10.15 10.15 ...
    new_var    (time, latitude, longitude) float64 30.46 30.46 30.46 30.46 ...

In [5]:

myds.to_netcdf('myds.nc')
xr.open_dataset('myds.nc')

Out[5]:

<xarray.Dataset>
Dimensions:    (latitude: 73, longitude: 144, time: 62)
Coordinates:
  * latitude   (latitude) float32 90.0 87.5 85.0 82.5 80.0 77.5 75.0 72.5 ...
  * longitude  (longitude) float32 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0 ...
  * time       (time) datetime64[ns] 2002-07-01T12:00:00 2002-07-01T18:00:00 ...
Data variables:
    tcw        (time, latitude, longitude) float64 10.15 10.15 10.15 10.15 ...
    new_var    (time, latitude, longitude) float64 30.46 30.46 30.46 30.46 ...

In [6]:

(myds + myds).to_netcdf('myds2.nc')
xr.open_dataset('myds2.nc')

Out[6]:

<xarray.Dataset>
Dimensions:    (latitude: 73, longitude: 144, time: 62)
Coordinates:
  * time       (time) datetime64[ns] 2002-07-01T12:00:00 2002-07-01T18:00:00 ...
  * latitude   (latitude) float32 90.0 87.5 85.0 82.5 80.0 77.5 75.0 72.5 ...
  * longitude  (longitude) float32 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0 ...
Data variables:
    tcw        (time, latitude, longitude) float64 20.31 20.31 20.31 20.31 ...
    new_var    (time, latitude, longitude) float64 60.92 60.92 60.92 60.92 ...
于 2016-02-19T14:06:56.857 回答
2

检查文件的分块。ncdump -s <infile>会给出答案。如果时间维度上的块大小大于 1,您应该一次读取相同数量的年,否则您一次从磁盘读取几年并且一次只使用一个。慢有多慢?对于这种大小的数组,每个时间步长最多几秒听起来是合理的。稍后提供有关您如何处理数据的更多信息可能会为我们提供更多关于问题所在的指导。

于 2016-02-16T11:09:06.700 回答
0

这是 Kinda Hacky,但可能是最简单的解决方案:

将文件的子集读入内存,然后将 cPickle ( https://docs.python.org/3/library/pickle.html ) 文件读回磁盘以供将来使用。从腌制数据结构加载数据可能比每次都解析 netCDF 更快。

于 2016-02-19T07:18:18.620 回答