2

我正在寻找一个使用字典来匹配单词的开源 ocr(可能是 tesseract)。例如,我知道这个 ocr 只会用于搜索某些名称。想象一下,我有一个主来宾列表(书面),我想用 ocr 在不到一秒的时间内扫描这个列表,并对照一个名称数据库检查它。

我知道传统的 ocr 可以尝试读取每个字母,然后我可以用 100 个名称交叉引用结果,但这需要太长时间。如果 ocr 只专注于这 100 个单词而不是其他任何东西,那么它应该能够在一瞬间完成所有这些。即没有必要猜测一个词可能是“Jach”,因为“Jach”在我的数据库中不是一个名字。ocr 应该能够推断出它是“Jack”,因为这是数据库中的实际名称。

这可能吗?

4

1 回答 1

2

这应该是可能的。可以这样想:不是让您的 OCR 寻找“J”,而是直接寻找“Jack”,有点:作为一个单独的符号

因此,当您训练/校准您的 OCR 时,请使用整个单词的图像对其进行训练,类似于您对单个符号的训练方式。

(如果此功能在您的 OCR 中不直接可用,则首先将整个单词的图像映射到唯一的符号,然后将该符号转换为最终的单词字符串)

于 2013-02-25T08:35:44.907 回答