我正在维护来自外国情报监视法庭的经过大量编辑的文件的档案。
它们带有大段的文本,如下所示:
当 OCR 尝试使用它时,您会收到如下文本:
在 90 天内每天生成此数据。这样做的唯一目的
生产是为了获取外国情报信息以支持
个人授权调查以防止国际恐怖主义和
所以在 OCRed 版本中,有黑点的地方,只是缺少单词。有时,缺少的单词会创建一个语法正确的句子,但具有不同/奇怪的含义(如上)。其他时候,生成的句子没有意义,但无论哪种方式都是一个问题。如果 OCR 引擎可以为这些点返回 X 或像 ▮▮▮▮ 这样的 Unicode 方块,那就更好了。
我想要的结果是这样的:
在 90 天内每天生成此数据。这样做的唯一目的
生产是为了获取外国情报信息以支持XXXXXXXXXXXX
个人授权调查以防止国际恐怖主义和
我的问题是如何获得这些 X。有没有办法分析图像以识别黑点?有没有办法用 X 或更好的 unicode 字符替换它们?我愿意接受任何使这看起来正确的想法,但图像编辑对我来说不是一个强项,也不是深入 OCR 引擎。