我想清理一个由于 OCR 而有很多错误的字幕文件。错误之一l
是 显示为I
。当然有时 theI
真的是 a I
,主要是在以下情况下:
- 句首:
I'm Ieaving...
或- I'm Ieaving...
。 - 在名称中:
IsabeIIe
。 - 也许是一些奇怪的案例。
由于名称难以检测,我认为最好仅将I
's 替换为一个或多个直接在前面的小写字母,然后手动检查其余部分。所以在转换后我得到I'm Ieaving
and Isabelle
。这是我能想到的最“准系统”的自动化解决方案,因为没有那么多单词在大写字母之前有一个小写字母。
我怎样才能在正则表达式中做到这一点?提前致谢。