2

我正在处理大量包含与 nasa 的 MODIS 网格相对应的数据矩阵的大文件——该网格将地球表面分割成一个 21,600 x 43,200 像素的阵列。这个特定的数据集为每个像素提供一个整数值。

我有大约 200 个文件,每个月一个文件,需要为每个像素创建一个时间序列。

我的问题是,对于需要其中一个文件的地图任务——我应该将网格切割成例如 24,000 个像素的块,并将它们作为值(以位置和时间段作为键)发出,还是简单地发出一个每个像素的键值对,将像素视为规范字数示例中的单词?

分块可以正常工作,它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是这样会在IO上节省不少时间,但只是感觉,期待实际知情的意见!

4

1 回答 1

0

在我从事的一个 Hadoop 项目中,我可以确认 K、V 对的数量对负载、CPU 时间和 IO 有直接影响。如果您可以限制块的数量并且仍然为您的情况保留足够的可扩展性,我当然会尝试去那里。

于 2011-02-01T08:22:43.167 回答