作为我论文的一部分,我必须评估和测试一些大数据框架,如 Hadoop 或 Storm。你会推荐什么样的最小设置来获得一些关于性能和可伸缩性的相关信息?什么云平台最适合这个?由于我评估了多个框架,即开箱即用的 PaaS - 解决方案不会是最佳选择。正确的?获得一些相关信息的最少节点/服务器数量是多少?越便宜越好,因为我这样做的公司可能不会给我一个 20 机器集群;)
非常感谢,克罗克斯
作为我论文的一部分,我必须评估和测试一些大数据框架,如 Hadoop 或 Storm。你会推荐什么样的最小设置来获得一些关于性能和可伸缩性的相关信息?什么云平台最适合这个?由于我评估了多个框架,即开箱即用的 PaaS - 解决方案不会是最佳选择。正确的?获得一些相关信息的最少节点/服务器数量是多少?越便宜越好,因为我这样做的公司可能不会给我一个 20 机器集群;)
非常感谢,克罗克斯
好吧,您肯定需要至少两台物理机器。像在一台物理机器上放置多个虚拟机这样的任何事情都是不可能的,因为这样你就不会得到分布式系统典型的网络开销。
作为现实场景,三个可能是您可以逃脱的绝对最小值。即便如此,很多时候,Hadoop 的开销也几乎没有被收益所抵消。
我想说五个是最现实的最小值,也是一个非常典型的小集群大小。5 - 8 是一个很好的小范围。
就平台而言,我想说 Amazon EC2/EMR 应该始终是一个很好的首选考虑。这是一项完善的、出色的服务,许多现实世界的集群都在其上运行。好处是它易于使用,相对便宜,并且可以代表现实世界的场景。唯一的缺点是虚拟化可能会导致它的扩展与单个物理机略有不同,但这对您来说可能是也可能不是问题。如果您使用较大的实例类型,我相信它们的虚拟化程度较低。
希望这可以帮助。