我已经开始在我们的 ML 管道中使用 Dagster,并且遇到了一些基本问题,我想知道我是否在这里遗漏了一些微不足道的东西,或者这就是它的样子......
假设我有一个简单的 ML 管道:
Load raw data --> Process data into table --> Split train / test --> train model --> evaluate model.
线性模型在 Dagster 中是直截了当的。但是如果我想添加一个小循环怎么办,比如说用于交叉验证:
Load raw data --> Process data into table --> Split into k folds, and for each fold:
- fold 1: train model --> evaluate
- fold 2: train model --> evaluate
- fold 3: train model --> evaluate
--> summarize cross validation results.
在 Dagster 中是否有一种干净整洁的方法可以做到这一点?我一直在做的事情是:
Load raw data --> Process data into table --> Split into K folds --> choose fold k --> train model --> evaluate model
使用折叠“k”作为管道的输入参数。然后运行管道 K 次。
我在这里想念什么?