如果有人有这方面的经验,我正在寻找一个球场......
有没有人有关于 AWS 地图减少速度的基准?
假设我有 1 亿条记录,并且我正在使用 hadoop 流(一个 php 脚本)来映射、分组和减少(通过一些简单的 php 计算)。平均组将包含 1-6 条记录。
运行一堆小实例还是更大的实例更好/更具成本效益?我意识到它被分解为一个实例中的节点,但是更大的节点是否会有更高的 I/O,这意味着每个服务器的每个节点更快(并且更具成本效益)?
还有流式传输,映射器与减速器的比例是如何确定的?
如果有人有这方面的经验,我正在寻找一个球场......
有没有人有关于 AWS 地图减少速度的基准?
假设我有 1 亿条记录,并且我正在使用 hadoop 流(一个 php 脚本)来映射、分组和减少(通过一些简单的 php 计算)。平均组将包含 1-6 条记录。
运行一堆小实例还是更大的实例更好/更具成本效益?我意识到它被分解为一个实例中的节点,但是更大的节点是否会有更高的 I/O,这意味着每个服务器的每个节点更快(并且更具成本效益)?
还有流式传输,映射器与减速器的比例是如何确定的?
我不知道你能否给出一个有意义的基准——这有点像询问计算机程序通常运行多快。在不了解脚本的情况下,不可能说您的程序运行速度有多快。
如果您的意思是,支持 EMR 作业的实例的速度有多快,它们与您指定的底层实例的规格相同,来自 AWS。
如果您想大致了解 EMR 的不同执行方式:我想说您可能会在 CPU 瓶颈之前遇到 I/O 瓶颈。
从理论上讲,这意味着您应该运行许多小型实例并要求机架多样性,以便从更多机器上获取更多 I/O 资源,而不是让它们竞争。在实践中,我发现更少、更高的 I/O 实例可能更有效。但即使这种印象也并不总是成立——实际上取决于该区域的繁忙程度以及您的工作安排在哪里。