0

我对此处解释的 MapReduce 示例有疑问:

http://forge.fiware.org/plugins/mediawiki/wiki/fiware/index.php/BigData_Analysis_-_Quick_Start_for_Programmers

它确实是hadoop MapReduce 最常见的例子,WordCount。

我能够在 Cosmos 的全局实例中毫无问题地执行它,但即使我给它一个小输入(一个 2 或 3 行的文件),执行它也需要很多时间(或多或少半分钟)。我认为这是它的正常行为,但我的问题是:¿为什么即使是很小的输入也需要这么长时间?

我猜这种方法可以通过更大的数据集提高其有效性,而这种最小延迟可以忽略不计。

4

1 回答 1

0

首先,您必须考虑到 FIWARE LAB 的当前 Cosmos 实例是 Hadoop 的共享实例,因此许多其他用户可能同时执行 MapReduce 作业,从而导致计算资源的“竞争”。

话虽如此,MapReduce 是为大型数据集和大型数据文件设计的。它增加了很多开销,在处理几行时没有必要(因为对于几行分析,您不需要 MapReduce!:))但是当这些行数以千计,甚至数百万行时,这很有帮助。在这些情况下,处理时间当然与数据大小成正比,但不是 1:1 的比例。

于 2015-03-09T16:47:39.873 回答