嗨,我一直在搜索有关哪些特征对我有好处的研究论文,以用于我的手写 OCR 分类神经网络。我是一个初学者,所以我一直只是拍摄手写字符的图像,在它周围制作一个边界框,然后将其调整为 15x20 二进制图像。所以这意味着我有一个包含 300 个特征的输入层。从我在谷歌上找到的论文(其中大部分都很旧)中,方法确实有所不同。仅使用图像的二进制网格,我的准确性还不错,但是我想知道是否有人可以使用其他功能来提高准确性。甚至只是指出我正确的方向。我真的很感激!
谢谢,扎克
嗨,我一直在搜索有关哪些特征对我有好处的研究论文,以用于我的手写 OCR 分类神经网络。我是一个初学者,所以我一直只是拍摄手写字符的图像,在它周围制作一个边界框,然后将其调整为 15x20 二进制图像。所以这意味着我有一个包含 300 个特征的输入层。从我在谷歌上找到的论文(其中大部分都很旧)中,方法确实有所不同。仅使用图像的二进制网格,我的准确性还不错,但是我想知道是否有人可以使用其他功能来提高准确性。甚至只是指出我正确的方向。我真的很感激!
谢谢,扎克
我还没有读过任何关于这个主题的实际论文,但我的建议是要有创意。使用任何你能想到的可能有助于分类器识别数字的东西。
我的第一个想法是尝试识别图像中的“线条”,可能通过修改后的“滑动窗口”算法(滑动/旋转线?),或者尝试识别图像中的“最适合的线条”(到帮助分类器响应斜体或写作风格的变化)。确实,如果您使用的是神经网络,它应该在没有您手动帮助的情况下处理这些事情(这就是它们的全部意义!)
我会首先关注网络的结构和拓扑,以尝试提高性能,并且只有在您无法通过其他方式获得令人满意的性能时才担心附加功能。你也可以尝试改进你已经拥有的功能,确保字符在图像中居中,也许尝试一种算法来倾斜斜体字符以使它们垂直?
以我的经验,这些事情通常不会有帮助,但是您可能会很幸运并遇到可以改善您网络的事情:)