在一些图像上运行光学字符识别后,我得到了近似的文本。很多时候认可度不是很高。例如,实际文本“DATE”是“DHTE”或“0HTE”。基本上我需要识别和提取每一行中的数据,所以我不想要完美的识别,只需要识别日期线即可。我试图计算 Levenshtein 编辑距离,但不幸的是,这往往会为 DATE 和 TIME 提供相似的值。目前,我正在尝试探索是否可以使用正则表达式匹配数据模式。
是否有更好的匹配过程的方法/算法?好在我的套话量不是很大。
(我将 tesseract 用于 ocr 和 groovy/java 用于算法)