1

我正在寻找一种开源 OCR,但我可以告诉程序我希望它查找哪些字母。例如,如果只有字母和逗号是可能的,那么我不希望 OCR 浪费资源来查找它是否是数字。另外,我希望 OCR 输出它所看到的“认为”的可能性。例如,如果有一个“I”,那么 OCR 可能会认为它是一个小写的“L”,但它也应该有一个紧随其后的“I”。基本上,我希望 OCR 给我一个可能性列表,也许还有一个数字来表明它有多确定。例如,它可能会说“l”:55%,“I”:40%,其他:5%。

另一件事是我会知道字母是什么文本类型,即 Ariel,因此让 OCR 比较和对比不同类型的文本没有意义。

基本上,我正在编写一个只存在一定数量可能性的程序。例如,假设我正在使用 OCR 从元素周期表中读取元素。只有有限数量的元素,所以 OCR 应该可以猜到“HeIeun”实际上是“Helium”。

有没有这样的事情,或者我必须自己做大量的编码工作?谢谢。

4

1 回答 1

0

你可能想看看google开发的开源项目tesseract,它给出了非常好的结果并且对OCR有很多支持。

为了提供您自己的单词列表来识别文本,只需将 tessdata/eng.user-words 替换为您自己的单词列表,格式相同 - UTF8 文本,每行一个单词。

要获得非常高的准确性,请检查这个问题。

于 2012-07-20T05:17:39.813 回答