2

我正在用 Java 编写一个 OCR 程序(使用 Tesseract 从标签生成文本),我希望它能够识别输出中的常见错误,例如存储在数据库中的 VV 而不是 W 和 NIR 而不是 MR。因此,例如,如果它得到一个像“VVEIN,MIR Adam”这样的字符串,它应该更改为“WEIN,MR Adam”。

检查字符串是否与任何常见错误文本匹配的最有效方法是什么?目前我能想到的唯一方法是将字符串传递给每个已知错误的一系列正则表达式,但我希望有一种更有效的方法。谢谢 :)

4

1 回答 1

0

每次替换子字符串时,将传递String给多个正则表达式都会创建一个新表达式,因为 Java 中的字符串是不可变的。String改为使用StringBuilder

于 2012-11-05T13:18:10.220 回答