amazon-web-services - Pyspark 数据帧从一个存储桶中读取，并在同一作业中使用不同的 KMS 密钥写入另一个存储桶

Question

需要一点帮助来为下面的我的用例找到更好的解决方案。

我有包含输入数据的 S3 存储桶，它使用KMS KEY 1加密

所以我可以使用将 KMS KEY 1 设置为我的 spark 会话"spark.hadoop.fs.s3.serverSideEncryption.kms.keyId"

并能够读取数据，

现在我想将数据写入另一个 S3 存储桶，但它是使用KMS KEY 2加密的*

所以我目前正在做的是，使用 Key1 创建 spark 会话并读取数据帧并将其转换为 Pandas 数据帧并终止 spark 会话并使用 KMS KEY2 在相同的 AWS 胶水作业中重新创建 spark 会话并转换 pandas 数据在上一步中创建以触发数据帧并写入输出 S3 存储桶。

但这种方法有时会导致数据类型问题。有没有更好的替代解决方案来处理这个用例？

提前致谢，非常感谢您的帮助。

score 2 · Accepted Answer

您无需声明使用什么密钥来解密使用 S3-KMS 加密的数据；要使用的 keyID 作为属性附加到文件中。AWS S3 读取加密设置，查看密钥 ID，将 KMS 加密的对称密钥发送到 AWS KMS，要求使用请求解密的用户/IAM 角色对其进行解密。如果用户/角色有正确的权限，S3 会取回未加密的密钥，解密文件并返回。

要从使用 KMS-1 加密的存储桶中读取数据，您应该能够将密钥设置为 key2 值（或根本不加密），并且仍然可以取回数据

免责声明：我没有用 EMR s3 连接器测试过这个，只有 apache S3A 连接器，但由于 S3-KMS 在任何地方都一样，我希望这能成立。使用客户端提供的密钥 S3-CSE 加密是另一回事。您确实需要正确配置客户端，这就是 S3A 支持按桶配置的原因。

amazon-web-services - Pyspark 数据帧从一个存储桶中读取，并在同一作业中使用不同的 KMS 密钥写入另一个存储桶

1 回答 1

Related

Reference