1

我有一个 AWS 粘合作业,按照以下说明启用了 Spark UI:为作业启用 Spark UI

粘合作业具有s3: * 访问arn:aws:s3:::my-spark-event-bucket/ * 资源。但是由于某种原因,当我运行胶水作业时(它在 40-50 秒内成功完成并成功生成了输出 parquet 文件),它不会向目标 s3 路径生成任何火花事件日志。我想知道可能出了什么问题,是否有任何系统的方法可以让我查明根本原因。

4

1 回答 1

1

您的胶水作业运行了多长时间?

我发现执行时间短(少于或大约 1 分钟)的作业不能可靠地在 S3 中生成 Spark UI 日志。

AWS 文档指出“每 30 秒,AWS Glue 将 Spark 事件日志刷新到您指定的 Amazon S3 路径。 ”短作业不生成 Spark UI 日志的原因可能与此有关。

如果您的作业执行时间很短,请尝试在作业中添加额外的步骤,甚至暂停/等待以延长执行时间。这应该有助于确保将 Spark UI 日志发送到 S3。

于 2021-06-05T03:21:33.903 回答