-1

我有一个关于机器学习数据预处理的一般性问题。我知道将数据集中在 0 附近(均值减法),标准化数据(消除方差)几乎是必须做的。还有其他可能的技术。这必须用于训练数据和验证数据集。

我遇到了以下问题。我的神经网络经过训练可以对图像中的特定形状进行分类,如果我不将这种预处理技术应用于必须分类的图像,它就无法做到这一点。这种“分类”图像当然不包含在训练集或验证集中。因此我的问题是:

对必须分类的数据应用归一化是否正常,或者如果没有这种技术,我的网络性能不佳是否意味着我的模型在某种意义上是糟糕的,它无法泛化和过度拟合?

PS 在“分类”图像上使用了归一化,我的模型表现得非常好(大约 90% 的准确率),不低于 30%。

附加信息:模型:带有 keras 和 tensorflow 的卷积神经网络。

4

1 回答 1

0

不言而喻(尽管在介绍性教程中很少明确提及,因此初学者经常感到沮丧)馈送到模型进行分类的新数据必须经历与训练(和测试)相同的预处理步骤数据。

这里当然需要一些常识:在各种 ML 建模中,新的输入数据应该与用于训练和测试的原始数据具有相同的“一般形式”;相反的情况(即你一直在尝试做的事情),如果你停下来想一想,你应该能够说服自己这没有多大意义......

以下答案可以帮助您澄清这个想法,还说明了在必要时对预测进行逆变换的情况:

如何使用 Keras 预测函数/表?

使用 KerasRegressor 得到非常糟糕的预测

于 2018-07-12T13:44:29.763 回答