0

我需要输入图像和坐标。输入坐标中的文本必须作为输出读取。如何使用 node-tesseract 做到这一点?

4

2 回答 2

3

您需要查看从 Tesseract 返回的 .hocr 文件(您可以先 google hocr 获取更多信息)。.hocr 包括文本的所有边界框(x、y、宽度、高度、语言等)。然后计算所有位于从输入获得的坐标内的框。

参考: http: //gamemath.com/2011/09/detecting-whether-two-boxes-overlap/

更新

我为你做了一些研究。在这里,您是您可以在 Github 上找到的 Javascript 中的“最佳”(最多明星)github 存储库

https://github.com/search?utf8= ✓&q=tesseract+language%3Ajavascript

最好的是tesseract.js拥有超过 10000 颗星并且最近仍有提交

https://github.com/naptha/tesseract.js

在此处输入图像描述

我突出显示的部分是.hocrtesseract.js命名它html

于 2016-12-19T03:54:57.033 回答
0

我知道这是一个旧线程,但是我有相同的要求,找不到解决方案,所以我修改了模块并发布到 Git:

https://github.com/desmondmorris/node-tesseract/issues/46

于 2017-05-22T12:44:35.497 回答