我需要输入图像和坐标。输入坐标中的文本必须作为输出读取。如何使用 node-tesseract 做到这一点?
问问题
5243 次
2 回答
3
您需要查看从 Tesseract 返回的 .hocr 文件(您可以先 google hocr 获取更多信息)。.hocr 包括文本的所有边界框(x、y、宽度、高度、语言等)。然后计算所有位于从输入获得的坐标内的框。
参考: http: //gamemath.com/2011/09/detecting-whether-two-boxes-overlap/
更新:
我为你做了一些研究。在这里,您是您可以在 Github 上找到的 Javascript 中的“最佳”(最多明星)github 存储库
https://github.com/search?utf8= ✓&q=tesseract+language%3Ajavascript
最好的是tesseract.js
拥有超过 10000 颗星并且最近仍有提交
https://github.com/naptha/tesseract.js
我突出显示的部分是.hocr
(tesseract.js
命名它html
)
于 2016-12-19T03:54:57.033 回答
0
我知道这是一个旧线程,但是我有相同的要求,找不到解决方案,所以我修改了模块并发布到 Git:
于 2017-05-22T12:44:35.497 回答