hadoop - Hadoop“风格”——分块与数千个 (k, v) 对

Question

我正在处理大量包含与 nasa 的 MODIS 网格相对应的数据矩阵的大文件——该网格将地球表面分割成一个 21,600 x 43,200 像素的阵列。这个特定的数据集为每个像素提供一个整数值。

我有大约 200 个文件，每个月一个文件，需要为每个像素创建一个时间序列。

我的问题是，对于需要其中一个文件的地图任务——我应该将网格切割成例如 24,000 个像素的块，并将它们作为值（以位置和时间段作为键）发出，还是简单地发出一个每个像素的键值对，将像素视为规范字数示例中的单词？

分块可以正常工作，它只是在我的程序中引入了一个任意的“块大小”变量。我的感觉是这样会在IO上节省不少时间，但只是感觉，期待实际知情的意见！

score 0 · Accepted Answer

在我从事的一个 Hadoop 项目中，我可以确认 K、V 对的数量对负载、CPU 时间和 IO 有直接影响。如果您可以限制块的数量并且仍然为您的情况保留足够的可扩展性，我当然会尝试去那里。

1 回答 1