node.js - Tesseract - 如何从输入坐标的图像中提取文本？

Question

我需要输入图像和坐标。输入坐标中的文本必须作为输出读取。如何使用 node-tesseract 做到这一点？

score 3 · Accepted Answer

您需要查看从 Tesseract 返回的 .hocr 文件（您可以先 google hocr 获取更多信息）。.hocr 包括文本的所有边界框（x、y、宽度、高度、语言等）。然后计算所有位于从输入获得的坐标内的框。

更新：

我为你做了一些研究。在这里，您是您可以在 Github 上找到的 Javascript 中的“最佳”（最多明星）github 存储库

https://github.com/search?utf8= ✓&q=tesseract+language%3Ajavascript

最好的是tesseract.js拥有超过 10000 颗星并且最近仍有提交

我突出显示的部分是.hocr（tesseract.js命名它html）

score 0 · Accepted Answer

我知道这是一个旧线程，但是我有相同的要求，找不到解决方案，所以我修改了模块并发布到 Git：

2 回答 2