我正在处理大量包含与 nasa 的 MODIS 网格相对应的数据矩阵的大文件——该网格将地球表面分割成一个 21,600 x 43,200 像素的阵列。这个特定的数据集为每个像素提供一个整数值。
我有大约 200 个文件,每个月一个文件,需要为每个像素创建一个时间序列。
我的问题是,对于需要其中一个文件的地图任务——我应该将网格切割成例如 24,000 个像素的块,并将它们作为值(以位置和时间段作为键)发出,还是简单地发出一个每个像素的键值对,将像素视为规范字数示例中的单词?
分块可以正常工作,它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是这样会在IO上节省不少时间,但只是感觉,期待实际知情的意见!