hadoop - 云端小功能的并行处理

Question

我有几百万/十亿 (10^9) 数据输入集，需要处理。它们很小，小于 1kB。它们需要大约 1 秒的时间来处理。

我读过很多关于 Apache Hadoop、Map Reduce 和 StarCluster 的文章。但我不确定最有效和最快的处理方式是什么？

我正在考虑使用 Amazon EC2 或类似的云服务。

score 3 · Accepted Answer

您可能会考虑使用Amazon EMR之类的东西，它负责处理 Hadoop 的大量工作。如果您只是想快速编写代码，hadoop 流、hive 和 PIG 都是开始使用 hadoop 的好工具，而无需您了解 MapReduce 的所有细节。

1 回答 1