我正在评估 EC2/ EMR以运行约 20 个节点的 Hadoop 集群。(自定义 JAR集群)。我在单节点 3.3 GHz 2GB RAM 本地 VMWare 实例上运行了简单的 WordCount 示例,完成时间不到 10 秒。WordCount 示例在具有 2 个c1.mediumm实例的 EMR 上需要 3 分钟才能完成(不包括 3-5 分钟的启动时间)。2 m1.small 实例花费相同的时间。在 EMR 上运行作业会有一些开销,而且可能这个问题规模太小,所以这似乎可以理解。
您开始看到云的性能优势大约是什么规模的问题?或者大约有多少个节点或计算单元?