我想解决一个常见但非常具体的问题:由于 OCR 错误,许多字幕文件包含字符“I”(大写 i)而不是“l”(小写 L)。
我的进攻计划是:
- 逐字处理文件
- 将每个单词传递给 hunspell 拼写检查器(“echo the-word | hunspell -l”如果有效则根本不产生响应,如果不正确则产生响应)
- 如果它是一个坏词,并且其中包含大写字母 Is,则将其替换为小写字母 l 并重试。如果它现在是一个有效的词,则替换原来的词。
我当然可以在脚本中标记和重建整个文件,但是在我走这条路之前,我想知道是否可以在单词级别使用 awk 和/或 sed 进行这些类型的条件操作?
任何其他建议的方法也将非常受欢迎!