0

当我运行胶水作业来处理一个小数据集时,它成功了。但是,当我使用更大的数据集运行相同的作业时,它会引发错误,如下面的屏幕截图所示。我的理解是,根本原因是 S3 在 Glue 将输出数据保存到其中时抛出的 MultiObjectDeleteException。 在此处输入图像描述

这是我用于将输出存储到 S3 中的代码

df = t_df.repartition(int(args["partition"]))
df.write \
.mode("overwrite") \
.format("parquet") \
.partitionBy(partition_keys) \
.option("compression", "snappy") \
.save(args["s3_dest_prefix"])

关于如何调试此问题的任何建议?提前致谢!

4

0 回答 0