我有一个胶水作业,负责将 csv 文件转换为 parquet 格式。
Input to the glue job : number of s3 csv files<N csv files>
Output from glue JOB : One parquet file per each Glue-job run
我的 Glue 作业是使用pyspark
and编写的glue dataframes
。它一直工作到26th March
. 通常需要30 minutes
完成 JOB。
问题:最近我看到我的胶水工作连续运行2-days
并返回timeout error
。
笔记:
Recently I didnt changed glue code
I didn't changed the infrastructure setup
No high load of CSV files
我不知道为什么这个胶水工作需要 2 天才能处理并返回TimeOut Error
谁能告诉我一个解决方案?