0

我有一个从 1979 年 1 月 1 日到 2005 年 12 月 31 日的 3D 时间序列数据矩阵。该矩阵目前为 9862x360x720(日降雨量 x 0.5° 纬度 x 0.5° 经度)。我想将每日降雨量与每月降雨量相加(总共 324 个月),同时还设置一个对 NaN 值求和的阈值。

换句话说,如果特定纬度/经度网格单元格的每日 NaN 值超过 10 个,我想将每月总和单元格标记为 NaN。如果网格单元的每日 NaN 值少于 10 个,我想将剩余的非 NaN 每日值相加并将其用作每月值。

我使用 xarray 库的“重采样”函数取得了成功,但我想不出一种方法来设置 NaN 值的阈值。我读过的所有内容都说使用 sum 或 nansum 函数,但我找不到通过其中任何一个函数设置 NaN 阈值的方法。此时我对任何方法(xarray 或其他)持开放态度。

import netCDF4
import numpy as np
import xarray as xr
import pandas as pd

f = netCDF4.Dataset("daily_data", 'r')

daily_dataset = xr.Dataset({'precipitation': (['time', 'lat', 'lon'],  f['precipitation'][:, :, :])},
             coords={'lat': (f['lat'][:]), 'lon': (f['lon'][:]), 'time': pd.date_range('1979-01-01', periods=9862)})

monthly_dataset = daily_dataset['precipitation'].resample('M', dim='time', how='sum', skipna=False)

我可以使用上面的代码将每日数据汇总到每月,但我无法设置 NaN 阈值。每日数据当前存储在 NetCDF 文件中。

4

1 回答 1

1

我相信这可以满足您的要求:

NaN = float("nan") # Make a constant for NaN

def sum_nan_threshold(iterable, *, nan_threshold=10):
    if sum(x == NaN for x in iterable) >= nan_threshold: # Are there more NaNs then threshold?
        return NaN
    else:
        return sum(x for x in iterable if x != NaN) # Else sum up if not equal to NaN
于 2018-02-05T20:09:09.047 回答