以下链接上的 AWS 文档要求允许对位于私有子网中的集群的 EMR 主安全组进行完全出站 Internet 访问。
但是,完全出站访问会带来风险。这种完整的出站互联网访问背后的基本原理是什么?
以下链接上的 AWS 文档要求允许对位于私有子网中的集群的 EMR 主安全组进行完全出站 Internet 访问。
但是,完全出站访问会带来风险。这种完整的出站互联网访问背后的基本原理是什么?
以下是与 AWS 支持建立联系后我可以收集到的信息:
您的安全组上的出站规则仅适用于您的集群节点启动到外部 IP 的新连接(即,任何 IP 而不是 localhost/它自己的私有 IP)。这就是为什么我们提供对出站连接的无限制访问的原因,因为它们是由节点本身发起的。
重要的是要了解,当您的集群启动时,它需要连接到 S3 以下载必要的存储库、上传/下载日志、集群信息等。此外,EMR 中的应用程序配置阶段包括成功配置许多内部服务/组件(如 Resource Manager、NameNode、Node Manager、DataNode 等),它们都运行在集群内部不同的随机端口上,因此需要允许主从/核心节点安全组之间的所有 TCP 通信。此外,主节点通过 SSL 进行大多数实例控制器通信和其他集群管理器组件的通信,以配置必要的软件并交换心跳信号,因此需要打开 443 和 80 端口。
此外,随着集群添加或删除更多节点,Hadoop 与不同的应用程序进行对话,每个应用程序都在自己的唯一端口以及不同的私有 IP 地址上运行。因此,我们无法提供可以为集群操作打开的特定端口列表,因为端口和协议要求会根据 EMR 集群上配置的应用程序而有所不同,并且如果节点无法运行,EMR 集群上的任务可能会失败相互通信或与所需端口(包括临时端口范围)的任何其他外部依赖项通信。
因此,请注意托管安全组出口规则的推荐配置为 0.0.0.0/0,尤其是在集群启动期间,因为限制它可能使 EMR 无法下载所需的应用程序,从而导致集群配置失败。
但是,我了解到您正在寻找最低推荐设置来配置“Amazon EMR 托管安全组”而不是 0.0.0.0/0(所有流量)上的出站规则,因为这可能会带来安全风险。
强烈建议不要在集群启动期间进行任何更改。即使在启动集群之后,如果未正确配置出站安全组规则,也可能会产生问题。您可以在集群启动成功后更新安全组规则。但以下是我们在这样做之前需要考虑的几件事 -
不建议在集群启动期间进行任何更改:
因此,一旦集群成功启动,您可以尝试根据您的用例场景限制出站规则,它看起来像 -
ElasticMapReduce-master 配置的出站规则:
Type Protocol Port Range Destination
HTTP TCP 80 0.0.0.0/0
HTTPS TCP 443 0.0.0.0/0
AllTraffic TCP 0 - 65535 ElasticMapReduce-master security group ID
AllTraffic TCP 0 - 65535 ElasticMapReduce-slave security group ID
ElasticMapReduce-slave 配置的出站规则:
Type Protocol Port Range Destination
HTTP TCP 80 0.0.0.0/0
HTTPS TCP 443 0.0.0.0/0
AllTraffic TCP 0 - 65535 ElasticMapReduce-master security group ID
AllTraffic TCP 0 - 65535 ElasticMapReduce-slave security group ID
注意:AllTraffic 包括所有 TCP、UDP、ICMP v4 到从节点安全组和主节点安全组。对于任何其他应用程序特定要求,您可以根据要求添加任何其他端口。
另请注意,准确定位 EMR 集群中需要哪些路由是一个非常困难的过程,因为移动部件太多,因此不建议这样做。我们无法准确概述特定集群所需的规则是什么,因为每个集群都因所使用的应用程序和集成而异。如果您绝对需要执行此操作,则需要在 EMR 子网中的所有 ENI 上启用 VPC 流日志,并使用 CloudWatch Logs Insights 或 Athena(如果您正在推送到 S3)浏览它们。
我强烈建议您先在开发环境中测试更改安全组配置,然后再在生产环境中进行更改。
该文档说,如果您不提供完整的出站访问权限,则最低要求是向“托管安全组的组 ID 提供 TCP 9443,以便在私有子网中进行服务访问”。
这意味着该实例将需要与 Amazon EMR“服务”进行通信,很可能是为了建立一个可以接收命令以运行作业的连接。