我想问你是否知道任何可以检测图像中候选文本的优秀文本本地化算法(用于我的 OCR 项目)
本质上,在“应用”这个算法之后,我希望能够获得带有候选字符的区域(边界框),例如
我正在尝试找到一些我可能会使用的东西,但即使我找到了一些东西,它也很可能是在一篇极其困难的论文中,需要应用非常高的数学知识。我已经遇到过 MSER(Maximally Stable Extremal Regions)或梯度向量流方法,但它们对我来说都非常困难(虽然我在数学方面了解很多,但我仍然很难弄清楚这些)
我想问你是否知道任何可以检测图像中候选文本的优秀文本本地化算法(用于我的 OCR 项目)
本质上,在“应用”这个算法之后,我希望能够获得带有候选字符的区域(边界框),例如
我正在尝试找到一些我可能会使用的东西,但即使我找到了一些东西,它也很可能是在一篇极其困难的论文中,需要应用非常高的数学知识。我已经遇到过 MSER(Maximally Stable Extremal Regions)或梯度向量流方法,但它们对我来说都非常困难(虽然我在数学方面了解很多,但我仍然很难弄清楚这些)
这些可能会给你一些指示:
您可以使用Opencv3.0“场景文本检测”功能。它基于“用于场景文本检测的类特定极值区域”。它也有示例代码。
您可以在以下位置找到它们:
[1] http://docs.opencv.org/3.0-beta/modules/text/doc/erfilter.html
[2] https://github.com/Itseez/opencv_contrib/blob/master/modules/text/samples/textdetection.cpp
文件:
[Neumann12] Neumann L., Matas J.: Real-Time Scene Text Localization and Recognition, CVPR 2012。该论文可在线获取http://cmp.felk.cvut.cz/~neumalu1/neumann-cvpr2012.pdf
[Neumann11] Neumann L., Matas J.: Text Localization in Real-world Images using Efficiently Pruned Exhaustive Search, ICDAR 2011。该论文可在http://cmp.felk.cvut.cz/~neumalu1/icdar2011_article 在线获取。 pdf
[Gomez13] Gomez L. 和 Karatzas D.: Multi-script Text Extraction from Natural Scenes, ICDAR 2013。该论文可在线获取http://158.109.8.37/files/GoK2013.pdf
[Gomez14] Gomez L. 和 Karatzas D.:多脚本和任意方向场景文本提取的快速分层方法,arXiv:1407.7504 [cs.CV]。该论文可在http://arxiv.org/abs/1407.7504在线获取
我不知道任何简单或简单的算法可以做到这一点。但是,我们正在使用名为 Leadtools 的第三方工具包来执行类似的行为。我知道它可以自动找到文本区域并识别它们。有关更多信息,您可以查看包含代码片段的此帮助主题:
此外,您可以在 OCR 之前对图像进行一些图像处理,因为图像中的颜色会降低 OCR 识别过程的准确性和性能。