我一直在训练一个模型来识别图像上的字符。我目前正在做的是尝试通过使用 TensorFlow 对象检测存储库中预定义的 fast-rcnn 来识别相对较小的图像(700x50)中的字母。这些图像包含多达 13 个我想要识别的字母,以及一些不需要识别的背景中的较小符号和字母。
我已经在TensorFlow模型动物园的配置文件中训练了一些模型(使用python),训练结果(分类精度和损失)很好。但是,框预测/区域建议对我不起作用。在图像上使用模型时,它总是在第一个或第一个和第二个字符上找到。模型根本找不到其他字符。我已经尝试调整锚参数和其他东西,但这对我的问题并不重要。
我现在的问题是:如何在我的模型中输出由区域提议(RPN)预测的框/锚?我想知道我必须如何更改我的模型以了解正在发生的事情以及为什么甚至没有找到其他字母 - 更不用说正确分类了。但是为了找出答案,我必须知道 RPN 在做什么才能理解为什么我的模型只找到前两个字母,即使我已经尝试过改变很多选项,比如锚大小或最大预测......
如果有人对我如何在 TensorFlow fast-RCNN 模型中输出 RPN 的建议有神奇的答案,那么我可以从那里找出为什么它们没有进入最终结果,那就太好了。但对于如何从这里开始的提示,我同样很高兴——例如,我自己构建一个 RCNN,而不是使用 TensorFlow zoo 中的模型或其他任何东西。由于我将在几个月内进一步研究这个模型,因此任何关于如何更深入地创建更好模型的提示都值得赞赏。
提前致谢。