amazon-web-services - 为什么更改粘合作业脚本后目标数据不更新？

Question

我已经定义了一个glue job将数据从 s3 源存储桶转换为 s3 目标存储桶的方法。我在工作中使用的脚本是Python. 它工作正常并将许多数据加载到目标存储桶。但后来我通过更新 python 脚本来删除一个字段 ( ) 来更改架构edited：

applymapping1 = applymapping1.drop_fields(['edited'])

重新运行作业后，s3 源存储桶上的新数据按照新方案到达，但目标存储桶上的旧数据没有更新。如何让glue作业针对目标存储桶上的现有数据运行？我是否必须删除存储桶并再次重新运行作业？

score 0 · Accepted Answer

胶水不会覆盖目标数据。它总是附加新文件（尽管可能会发生一些冲突）。因此，如果输出模式发生更改，则您需要删除旧数据文件并重新运行作业以生成新数据。

1 回答 1