machine-learning - 如何使用 scikit 进行预测？

Question

我已经使用 fit 方法训练了一个估计器，称为 clf 并将模型保存到磁盘。下次运行该程序，将从磁盘加载 clf。

我的问题是：

score 2 · Accepted Answer

如何预测保存在磁盘上的样本？我的意思是，如何加载和预测？

您必须对新样本使用与传递给fit方法的样本相同的数组表示。如果要预测单个样本，则输入必须是具有 shape 的 2D numpy 数组(1, n_features)。

在 HDD 上读取原始文件并将其转换为适合分类器的 numpy 数组表示的方式是一个特定领域的问题：这取决于您是否尝试对文本文件、jpeg 文件、视频文件中的帧、数据库中的行进行分类, syslog 监控服务的日志行...
预测后如何获取样本标签而不是标签整数？

只需保留标签名称列表，并确保拟合时用作目标值的整数在范围内[0, n_classes)。例如['spam', 'ham']，如果您在该范围内有预测，[0, 1]那么您可以执行以下操作：
```
new_samples = # 2D array with shape (n_samples, n_features)
label_names = ['ham', 'spam']
predictions = [label_names[pred] for pred in clf.predict(new_samples)]
```

1 回答 1