0

我在本地机器上构建了一个 XGBoost 模型,它获取训练数据并在测试数据集上验证模型。但是,由于训练数据是每月创建的,因此我对日期值进行了硬编码。训练数据是根据我传递的日期参数创建的。例如,jan = dt(2021,1,1)。

我现在必须自动化该过程,因为模型必须部署在 AWS 上,并且应该每月运行一次,而无需编辑代码。我应该如何将日期参数传递给 AWS Wrangler,以便流程自动化,并且代码将每月在新数据集上执行一次。

4

1 回答 1

0

一种方法是将 Data Wrangler 流导出到 SageMaker 管道(这可以通过 Data Wrangler UI 完成)。假设您的数据集在 S3 中,导出的 Flow 将生成一个笔记本,该笔记本定义了一个 SageMaker 管道,该管道可以将 S3 URI 作为输入并通过 Data Wrangler Steps 运行它。您可以将 SageMaker 管道配置为按计划运行,并通过 SageMaker 管道的执行参数为每次执行传递新的 S3 URI。

另一种方法是使用此 AWS 博客中所述的 Lambda 函数 - https://aws.amazon.com/blogs/machine-learning/schedule-an-amazon-sagemaker-data-wrangler-flow-to-process- new-data-periodically-using-aws-lambda-functions/

我在 AWS 工作,我的意见是我自己的。

于 2022-02-25T02:35:33.117 回答