hadoop - Fiware-Cosmos MapReduce

Question

我对此处解释的 MapReduce 示例有疑问：

它确实是hadoop MapReduce 最常见的例子，WordCount。

我能够在 Cosmos 的全局实例中毫无问题地执行它，但即使我给它一个小输入（一个 2 或 3 行的文件），执行它也需要很多时间（或多或少半分钟）。我认为这是它的正常行为，但我的问题是：¿为什么即使是很小的输入也需要这么长时间？

我猜这种方法可以通过更大的数据集提高其有效性，而这种最小延迟可以忽略不计。

score 0 · Accepted Answer

首先，您必须考虑到 FIWARE LAB 的当前 Cosmos 实例是 Hadoop 的共享实例，因此许多其他用户可能同时执行 MapReduce 作业，从而导致计算资源的“竞争”。

话虽如此，MapReduce 是为大型数据集和大型数据文件设计的。它增加了很多开销，在处理几行时没有必要（因为对于几行分析，您不需要 MapReduce！:)）但是当这些行数以千计，甚至数百万行时，这很有帮助。在这些情况下，处理时间当然与数据大小成正比，但不是 1:1 的比例。

1 回答 1