我正在尝试使用 TensorFlow 构建一个分类器来识别神经网络中文本的特定部分。我受到 SVHN 项目的启发,以识别足球图片中的时钟。在整个项目中,我只关注时钟。我添加了一张图片以更明确地了解我的项目。
我做的第一件事是全天候裁剪图片并预测数字(例如,可能是 3 或 4 位数字 9:38 或 11:34)。效果很好,我的训练集有 20k 张图片,准确率很高(测试集 > 90%)。
现在我想做一些更复杂的事情,我认为神经网络应该能够做到,但我不确定。所以我没有准确地裁剪时钟,但我裁剪了整个记分牌(带有团队名称等),我仍然想预测时钟。
我尝试使用 20k 图片和 40k 图片进行训练。在这两种情况下,我在测试集上只有 70% 的准确率。时钟几乎总是在图片中的相同位置(在记分牌的顶部)。
我不明白为什么准确率这么低。如果有人有线索,那将非常有帮助。非常感谢您的帮助。
规格:
图像大小: 32x32
标签数量: 11(0-9 + 空白)
模型:
7 层 CNN。
C1:卷积层,batch_size x 28 x 28 x 16,卷积大小:5 x 5 x 1 x 16
S2:子采样层,batch_size x 14 x 14 x 16
C3:卷积层,batch_size x 10 x 10 x 32,卷积大小:5 x 5 x 16 x 32
S4:子采样层,batch_size x 5 x 5 x 32
C5:卷积层,batch_size x 1 x 1 x 64,卷积大小:5 x 5 x 32 x 64
Dropout
F6:全连接层,权重大小:64 x 16
输出层,权重大小:16 x 11