我正在使用钻头读取 s3 存储桶,然后使用镶木地板将其写回 s3,以便使用 spark 数据帧读取它以进行进一步分析。AWS emr 要求我至少拥有 2 台核心机器。
将 i mirco 实例用于 master 和 cores 会影响性能吗?
我不使用 hdfs,所以我想把它们做成 mirco 实例来省钱。
无论如何,所有计算都将由 R3.xlarge 现场实例作为任务节点在内存中完成。最后,Spark 是否在每台机器中使用多个内核?还是使用 4.1 版本启动任务节点队列 R3.xlarge 以便它们可以自动调整大小是否更好?