0

我有一个胶水作业,负责将 csv 文件转换为 parquet 格式。

Input to the glue job : number of s3 csv files<N csv files>
Output from glue JOB : One parquet file per each Glue-job run

我的 Glue 作业是使用pysparkand编写的glue dataframes。它一直工作到26th March. 通常需要30 minutes完成 JOB。

问题:最近我看到我的胶水工作连续运行2-days并返回timeout error

笔记:

Recently           I didnt changed glue code

                   I didn't changed the infrastructure setup

                   No high load of CSV files

我不知道为什么这个胶水工作需要 2 天才能处理并返回TimeOut Error

谁能告诉我一个解决方案?

4

0 回答 0