我们正在做一个学期项目,我们正在使用 MNIST 训练集。尽管我们的分类器在 MNIST 测试集上运行良好(>94% 的准确率),但它在我们准备好的数据集上的性能却显着降低。我们准备的数据集的详细信息如下:
- 我们使用绘画程序创建了 28x28 图像。
- 我们准备的图像的背景是黑色的,数字是用白色绘制的(与 MNIST 相同)。
- 当我们检查 MNIST 图像和我们准备好的图像时,它们看起来非常相似。
关于像素值,我们尝试不同的组合和
- 我们将所有像素值从 (0, 255) 映射到 (0,1) 连续。
- 我们将所有像素值从 (0, 255) 映射到 (0, 1) 二进制,其中只有数字像素等于 1。
我们准备好的数据集的最佳分数约为 70%,而 MNIST 测试集的性能始终很高(>94%)。此外,分类器会犯一些非常奇怪的错误,例如它预测 3 --true digit is 0。
有熟悉 MNIST 的人吗?我认为问题与像素值有关,但我不知道为什么会发生。当我使用imshow
这两个图像时,它们看起来完全一样。