1

在一些图像上运行光学字符识别后,我得到了近似的文本。很多时候认可度不是很高。例如,实际文本“DATE”是“DHTE”或“0HTE”。基本上我需要识别和提取每一行中的数据,所以我不想要完美的识别,只需要识别日期线即可。我试图计算 Levenshtein 编辑距离,但不幸的是,这往往会为 DATE 和 TIME 提供相似的值。目前,我正在尝试探索是否可以使用正则表达式匹配数据模式。

是否有更好的匹配过程的方法/算法?好在我的套话量不是很大。

(我将 tesseract 用于 ocr 和 groovy/java 用于算法)

4

1 回答 1

2

这个有一些很酷的算法 http://secondstring.sourceforge.net/

这是 StringUtils levenstein distance中的一个基本的

于 2011-07-10T09:07:19.897 回答