我一直想知道是否可以将“数据准备”(.dprep)文件应用于 score.py 中的传入数据,类似于如何应用管道对象。这对于模型部署非常有用。为了找出答案,我在 MSDN 论坛上提出了这个问题,并收到了确认这是可能的回复,但几乎没有解释如何实际做到这一点。回应是:
在您的 score.py 文件中,您可以从 Python SDK 调用 dprep 包,以对传入的评分数据应用相同的转换。确保将 .dprep 文件捆绑到正在构建的映像中。
所以我的问题是:
我应用什么函数来调用这个 dprep 包?
- 是:
run_on_data(user_config, package_path, dataflow_idx=0, secrets=None, spark=None)
?
- 是:
从 CLI 创建 Web 服务时,如何将其捆绑到映像中?
- 有没有切换到
-f
乐谱文件?
- 有没有切换到
我浏览了整个文档和Workbench Repo,但似乎找不到任何示例。
我们欢迎所有的建议!
谢谢!
编辑:
设想:
我从实时数据库导入数据,假设这个数据集有 10 列。
然后,我使用 Workbench 对这个 (.dsource) 数据集进行特征工程,生成一个可能有 13 列的 .dprep 文件。
然后将此 .dprep 数据集作为 pandas DataFrame 导入并用于训练和测试我的模型。
现在我有一个模型可以部署了。
该模型通过模型管理部署到容器服务,并将从实时数据库中获取数据,该数据库将再次采用原始格式(10 列)。
显然,该模型已经在转换后的数据(13 列)上进行了训练,将无法对 10 列数据集进行预测。
我可以在“score.py”文件中使用什么函数来应用我在工作台中创建的相同转换?