ocr - 是否有一个 OCR 可以将它看到的内容与我给它的可能单词列表进行比较？

Question

我正在寻找一种开源 OCR，但我可以告诉程序我希望它查找哪些字母。例如，如果只有字母和逗号是可能的，那么我不希望 OCR 浪费资源来查找它是否是数字。另外，我希望 OCR 输出它所看到的“认为”的可能性。例如，如果有一个“I”，那么 OCR 可能会认为它是一个小写的“L”，但它也应该有一个紧随其后的“I”。基本上，我希望 OCR 给我一个可能性列表，也许还有一个数字来表明它有多确定。例如，它可能会说“l”：55%，“I”：40%，其他：5%。

另一件事是我会知道字母是什么文本类型，即 Ariel，因此让 OCR 比较和对比不同类型的文本没有意义。

基本上，我正在编写一个只存在一定数量可能性的程序。例如，假设我正在使用 OCR 从元素周期表中读取元素。只有有限数量的元素，所以 OCR 应该可以猜到“HeIeun”实际上是“Helium”。

有没有这样的事情，或者我必须自己做大量的编码工作？谢谢。

score 0 · Accepted Answer

你可能想看看google开发的开源项目tesseract，它给出了非常好的结果并且对OCR有很多支持。

为了提供您自己的单词列表来识别文本，只需将 tessdata/eng.user-words 替换为您自己的单词列表，格式相同 - UTF8 文本，每行一个单词。

要获得非常高的准确性，请检查这个问题。

ocr - 是否有一个 OCR 可以将它看到的内容与我给它的可能单词列表进行比较？

1 回答 1

Related

Reference