hadoop - Hadoop / AWS 弹性地图降低性能

Question

如果有人有这方面的经验，我正在寻找一个球场......

有没有人有关于 AWS 地图减少速度的基准？

假设我有 1 亿条记录，并且我正在使用 hadoop 流（一个 php 脚本）来映射、分组和减少（通过一些简单的 php 计算）。平均组将包含 1-6 条记录。

运行一堆小实例还是更大的实例更好/更具成本效益？我意识到它被分解为一个实例中的节点，但是更大的节点是否会有更高的 I/O，这意味着每个服务器的每个节点更快（并且更具成本效益）？

还有流式传输，映射器与减速器的比例是如何确定的？

score 1 · Accepted Answer

我不知道你能否给出一个有意义的基准——这有点像询问计算机程序通常运行多快。在不了解脚本的情况下，不可能说您的程序运行速度有多快。

如果您的意思是，支持 EMR 作业的实例的速度有多快，它们与您指定的底层实例的规格相同，来自 AWS。

如果您想大致了解 EMR 的不同执行方式：我想说您可能会在 CPU 瓶颈之前遇到 I/O 瓶颈。

从理论上讲，这意味着您应该运行许多小型实例并要求机架多样性，以便从更多机器上获取更多 I/O 资源，而不是让它们竞争。在实践中，我发现更少、更高的 I/O 实例可能更有效。但即使这种印象也并不总是成立——实际上取决于该区域的繁忙程度以及您的工作安排在哪里。

1 回答 1