3

我有几百万/十亿 (10^9) 数据输入集,需要处理。它们很小,小于 1kB。它们需要大约 1 秒的时间来处理。

我读过很多关于 Apache Hadoop、Map Reduce 和 StarCluster 的文章。但我不确定最有效和最快的处理方式是什么?

我正在考虑使用 Amazon EC2 或类似的云服务。

4

1 回答 1

3

您可能会考虑使用Amazon EMR之类的东西,它负责处理 Hadoop 的大量工作。如果您只是想快速编写代码,hadoop 流、hive 和 PIG 都是开始使用 hadoop 的好工具,而无需您了解 MapReduce 的所有细节。

于 2012-07-24T19:52:21.953 回答