Amazon 文档列出了几种评估模型的方法(例如交叉验证等),但是这些方法似乎在 Sagemaker Java SDK 中不可用。目前,如果我们想要进行 5 折交叉验证,似乎唯一的选择是为每个数据子集创建 5 个模型(并部署 5 个端点)一个模型并手动计算性能指标(召回率、精度等)。
这种方法效率不高,并且根据 k 折验证中的折数部署 k 端点的成本也很高。
还有其他方法可以测试模型的性能吗?
Amazon 文档列出了几种评估模型的方法(例如交叉验证等),但是这些方法似乎在 Sagemaker Java SDK 中不可用。目前,如果我们想要进行 5 折交叉验证,似乎唯一的选择是为每个数据子集创建 5 个模型(并部署 5 个端点)一个模型并手动计算性能指标(召回率、精度等)。
这种方法效率不高,并且根据 k 折验证中的折数部署 k 端点的成本也很高。
还有其他方法可以测试模型的性能吗?
Amazon SageMaker 是一组多个组件,您可以选择使用哪些组件。
内置算法专为(无限)规模而设计,这意味着您可以拥有庞大的数据集并能够以低成本快速构建模型。一旦您拥有大型数据集,您通常不需要使用交叉验证等技术,建议在训练数据和验证数据之间明确划分。当您提交训练作业时,这些部分中的每一个都将使用输入通道进行定义。
如果您有少量数据并且想要对所有数据进行训练并使用交叉验证来允许它,您可以使用服务的不同部分(交互式笔记本实例)。您可以自带算法甚至容器镜像用于开发、训练或托管。您可以拥有基于任何机器学习库或框架的任何 Python 代码,包括 scikit-learn、R、TensorFlow、MXNet 等。在您的代码中,您可以根据从 S3 复制到工作线程的训练数据定义交叉验证实例。