1

我正在使用步进功能data science SDK using python。我有一个每天运行的任务,并且在步骤函数的某些步骤中要访问的数据的路径每天都在变化,因为它具有日期参数。

如何在执行 step 函数并使用它时传递 date 参数,以便我可以每天自动访问新数据。

这是我添加到工作流中的一个步骤的示例。


etl_step = steps.GlueStartJobRunStep(
    'Extract, Transform, Load',
    parameters={"JobName": execution_input['GlueJobName'],
                "Arguments":{
                    '--S3_SOURCE': data_source,
                    '--S3_DEST': 's3a://{}/{}/'.format(bucket, project_name),
                    '--TRAIN_KEY': train_prefix + '/',
                    '--VAL_KEY': val_prefix +'/'}
               }
)

我想将日期变量添加到 S3_DEST。如果我使用 execution_input,则类型不是字符串,因此我无法将其连接为路径。

4

1 回答 1

1

编辑

如果日期是一个datetime对象,您可以使用 datetime.strftime('%Y-%m-%d')` 将其输出为字符串。

原来的

阶跃函数支持对它们的输入

如果您将SDK 用于 start_execution,那么您可以使用输入参数。

如果您有 CloudWatch 事件,您可以从控制台指定一个常量。

在此处输入图像描述

于 2020-07-13T09:18:47.423 回答