groovy - 模糊字符串匹配

Question

在一些图像上运行光学字符识别后，我得到了近似的文本。很多时候认可度不是很高。例如，实际文本“DATE”是“DHTE”或“0HTE”。基本上我需要识别和提取每一行中的数据，所以我不想要完美的识别，只需要识别日期线即可。我试图计算 Levenshtein 编辑距离，但不幸的是，这往往会为 DATE 和 TIME 提供相似的值。目前，我正在尝试探索是否可以使用正则表达式匹配数据模式。

是否有更好的匹配过程的方法/算法？好在我的套话量不是很大。

（我将 tesseract 用于 ocr 和 groovy/java 用于算法）

score 2 · Accepted Answer

这个有一些很酷的算法 http://secondstring.sourceforge.net/

这是 StringUtils levenstein distance中的一个基本的

groovy - 模糊字符串匹配

1 回答 1

Related

Reference