我正在寻找一个使用字典来匹配单词的开源 ocr(可能是 tesseract)。例如,我知道这个 ocr 只会用于搜索某些名称。想象一下,我有一个主来宾列表(书面),我想用 ocr 在不到一秒的时间内扫描这个列表,并对照一个名称数据库检查它。
我知道传统的 ocr 可以尝试读取每个字母,然后我可以用 100 个名称交叉引用结果,但这需要太长时间。如果 ocr 只专注于这 100 个单词而不是其他任何东西,那么它应该能够在一瞬间完成所有这些。即没有必要猜测一个词可能是“Jach”,因为“Jach”在我的数据库中不是一个名字。ocr 应该能够推断出它是“Jack”,因为这是数据库中的实际名称。
这可能吗?