0

我已经定义了一个glue job将数据从 s3 源存储桶转换为 s3 目标存储桶的方法。我在工作中使用的脚本是Python. 它工作正常并将许多数据加载到目标存储桶。但后来我通过更新 python 脚本来删除一个字段 ( ) 来更改架构edited

applymapping1 = applymapping1.drop_fields(['edited'])

重新运行作业后,s3 源存储桶上的新数据按照新方案到达,但目标存储桶上的旧数据没有更新。如何让glue作业针对目标存储桶上的现有数据运行?我是否必须删除存储桶并再次重新运行作业?

4

1 回答 1

0

胶水不会覆盖目标数据。它总是附加新文件(尽管可能会发生一些冲突)。因此,如果输出模式发生更改,则您需要删除旧数据文件并重新运行作业以生成新数据。

或者,您可以在 Glue 作业中使用 Spark 的本机“写入”功能覆盖数据

于 2019-07-31T21:12:51.163 回答