我已经使用 fit 方法训练了一个估计器,称为 clf 并将模型保存到磁盘。下次运行该程序,将从磁盘加载 clf。
我的问题是:
- 如何预测保存在磁盘上的样本?我的意思是,如何加载和预测?
- 预测后如何获取样本标签而不是标签整数?
我已经使用 fit 方法训练了一个估计器,称为 clf 并将模型保存到磁盘。下次运行该程序,将从磁盘加载 clf。
我的问题是:
如何预测保存在磁盘上的样本?我的意思是,如何加载和预测?
您必须对新样本使用与传递给fit
方法的样本相同的数组表示。如果要预测单个样本,则输入必须是具有 shape 的 2D numpy 数组(1, n_features)
。
在 HDD 上读取原始文件并将其转换为适合分类器的 numpy 数组表示的方式是一个特定领域的问题:这取决于您是否尝试对文本文件、jpeg 文件、视频文件中的帧、数据库中的行进行分类, syslog 监控服务的日志行...
预测后如何获取样本标签而不是标签整数?
只需保留标签名称列表,并确保拟合时用作目标值的整数在范围内[0, n_classes)
。例如['spam', 'ham']
,如果您在该范围内有预测,[0, 1]
那么您可以执行以下操作:
new_samples = # 2D array with shape (n_samples, n_features)
label_names = ['ham', 'spam']
predictions = [label_names[pred] for pred in clf.predict(new_samples)]