tensorflow - 在 TensorFlow 中消除类似 DeepMNIST 的网络中用于彩色图像分类的 softmax 饱和度

Question

我有一个分类数据集，它由大小为 8000x（32x32x3 图像）的训练和大小为 2000x（相同大小的图像）的测试组成。
我正在做一个非常简单的区分车辆和背景的任务。我使用 cross_entropy 作为成本函数。

我使用的网络与DeepMNIST中使用的网络几乎相同，除了第一个过滤器的大小为 3x... 而不是 1x... 因为它是彩色图像并且输出大小为 2，因为只有两个类：车辆或非车辆。看到这个相对简单的任务的结果让我问自己几个审问：

-首先，如果我没有使用足够大的批量大小（> 200），我几乎每次都会卡住，这两组的准确度为 62%（局部最优），这不足以满足我的需要

-其次，每当我使用正确的优化器 Adam 和正确的批量大小和学习率时，我都会达到 92%，但是输出总是非常好，例如 [0.999999999 0.000000000001]。

这不应该发生，因为任务很困难。
因此，当我完全卷积创建热图时，由于饱和，我几乎在所有地方都得到了 1.000001。
我究竟做错了什么？你觉得美白能解决问题吗？批量标准化？还有什么？我面临什么？

score 3 · Accepted Answer

这是过度拟合的迹象。如果您使用足够大的模型在小数据集上训练足够长的时间，最终您的置信度会饱和到 0 和 1。因此，防止过度拟合的相同技术（正则化惩罚、辍学、提前停止、数据增强）将对此有所帮助。

对于像这样的小型数据集，我的第一步是使用噪声破坏的示例来扩充数据集。IE，对于您的示例，我将添加带有原始标签的 800k 噪声损坏示例，并对其进行训练。

1 回答 1