我有几百万/十亿 (10^9) 数据输入集,需要处理。它们很小,小于 1kB。它们需要大约 1 秒的时间来处理。
我读过很多关于 Apache Hadoop、Map Reduce 和 StarCluster 的文章。但我不确定最有效和最快的处理方式是什么?
我正在考虑使用 Amazon EC2 或类似的云服务。
我有几百万/十亿 (10^9) 数据输入集,需要处理。它们很小,小于 1kB。它们需要大约 1 秒的时间来处理。
我读过很多关于 Apache Hadoop、Map Reduce 和 StarCluster 的文章。但我不确定最有效和最快的处理方式是什么?
我正在考虑使用 Amazon EC2 或类似的云服务。
您可能会考虑使用Amazon EMR之类的东西,它负责处理 Hadoop 的大量工作。如果您只是想快速编写代码,hadoop 流、hive 和 PIG 都是开始使用 hadoop 的好工具,而无需您了解 MapReduce 的所有细节。