我从事文本识别项目。我已经使用 TensorFlow 构建了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分离每个字符)来实现更复杂的文本识别算法,但我没有找到算法的这些部分的实现。
那么,你知道一些算法/实现/技巧我,使用TensorFlow,在自然场景图片中进行文本定位和文本分割(实际上是对运动图片记分牌中的文本进行定位和分割)?
非常感谢您的帮助。
我从事文本识别项目。我已经使用 TensorFlow 构建了一个分类器来预测数字,但我想通过使用文本本地化和文本分割(分离每个字符)来实现更复杂的文本识别算法,但我没有找到算法的这些部分的实现。
那么,你知道一些算法/实现/技巧我,使用TensorFlow,在自然场景图片中进行文本定位和文本分割(实际上是对运动图片记分牌中的文本进行定位和分割)?
非常感谢您的帮助。
要对页面上的元素(例如文本和图像段落)进行分组,您可以使用一些聚类算法和/或带有一些阈值的 blob 检测。
您可以使用 Radon 变换来识别线条并检测扫描页面的歪斜。
我认为对于字符分离,您将不得不弄乱字体。一些多项式匹配/拟合什么的。(目前这是一个非常疯狂的猜测,不要当真)。但是类似的方法可以让你在同一步骤中让角色脱离界限并识别它。
至于识别,一旦你有了一个字符,就有一个很好的三角技巧,可以将字符的角度与存储在数据库中的角度进行比较。在手写方面也很有效。
我不是页面分割究竟如何工作的专家,但似乎我正在成为一名专家。只是在一个项目上工作,包括它。所以给我一个月,我可以告诉你更多。:D
无论如何,你应该去阅读 Tesseract 代码,看看 HP 和 Google 是如何做到的。它应该给你很好的想法。
祝你好运!