0

我是 xarray 的新手,希望能帮助我开始我的项目。我想从许多(1000个)气相色谱-质谱(gcms)文件中创建一个磁盘上的单个xarray数据集或数据框,每个样本运行一个。我最初的目的是简单地绘制来自任意样本集、质荷 (m/z) 通道和保留时间窗口的数据叠加图,xarray 的索引和延迟加载似乎很理想。

我有制造商(奇怪的)cdf格式的数据,每个样本一个文件,并已将每个文件转换为pandas数据帧,格式如下

            t        14       15       16        17        18       19  \
0       271.0  102144.0  14864.0  43584.0   25816.0   82624.0   9992.0   
1       271.1  102720.0  15608.0  42896.0   25208.0   82432.0  10024.0   
2       271.2  101184.0  14712.0  42256.0   24960.0   81472.0   9960.0   
3       271.3  101824.0  14704.0  41216.0   25744.0   83008.0   9984.0   
4       271.4  102208.0  14152.0  41336.0   25176.0   81536.0  10256.0   

其中 t 上升到 2100.0 秒,列上升到 500(所以 488 x 18000)。我有 1000 个这样的文件,每个文件都有不同的示例名称。

我最初设想将xr.concat它们放入一个巨大的文件中。因此,按照文档,我已经能够从单个样本创建数据集结构并将其保存到 cdf,如下所示:

ds1 = xr.Dataset({'intensity': (['time', 'mz'], c1[["{}".format(x) for x in range(14, 501)]].values)},
             coords={'mz': range(14, 501),
                     'time': c1['t'].values,
                     'sample':['c1']})
ds1.to_netcdf('test_ds1.nc')


<xarray.Dataset>
Dimensions:    (mz: 487, smp: 1, time: 18185)
Coordinates:
  * time       (time) float64 271.0 271.1 271.2 271.3 271.4 271.5 271.6 ...
  * mz         (mz) int64 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ...
  * smp        (smp) <U2 'c1'
Data variables:
    intensity  (time, mz) float64 1.005e+05 1.444e+04 4.162e+04 2.536e+04 ...

(注意 mz 代表质荷比,即 15、16...500 的含义)

正如预期的那样,加载几个 dsixr.open_dataset不会增加 python 进程的内存使用(我正在查看 mac osx 上的活动监视器),这很好。

然而,在运行

d = xr.concat([ds0, ds1], dim='sample')

内存使用量猛增约 70MB/样本,表明它d完全在内存中,这不会扩展到 1000 个样本。

我可以在 xarray 中做什么来快速访问磁盘上的数据集?似乎xr.concat不是一种可扩展的方式来创建一个巨大的 cdf 文件。或许我需要一种xr.concat直接写入磁盘的方法,或者一个单独的工具来组合 cdfs。

4

1 回答 1

1

Xarray 用于在磁盘上组合多个 netCDF 文件的延迟加载需要使用 dask

我建议使用open_mfdatasetwhich 会自动处理大部分这些细节,例如xr.open_mfdataset('all/my/files/*.nc', concat_dim='sample').

于 2016-11-16T19:20:17.440 回答