4

我正在维护来自外国情报监视法庭的经过大量编辑的文件的档案。

它们带有大段的文本,如下所示:

已编辑文本的屏幕截图

当 OCR 尝试使用它时,您会收到如下文本:

在 90 天内每天生成此数据。这样做的唯一目的

生产是为了获取外国情报信息以支持

个人授权调查以防止国际恐怖主义和

所以在 OCRed 版本中,有黑点的地方,只是缺少单词。有时,缺少的单词会创建一个语法正确的句子,但具有不同/奇怪的含义(如上)。其他时候,生成的句子没有意义,但无论哪种方式都是一个问题。如果 OCR 引擎可以为这些点返回 X 或像 ▮▮▮▮ 这样的 Unicode 方块,那就更好了。

我想要的结果是这样的:

在 90 天内每天生成此数据。这样做的唯一目的

生产是为了获取外国情报信息以支持XXXXXXXXXXXX

个人授权调查以防止国际恐怖主义和

我的问题是如何获得这些 X。有没有办法分析图像以识别黑点?有没有办法用 X 或更好的 unicode 字符替换它们?我愿意接受任何使这看起来正确的想法,但图像编辑对我来说不是一个强项,也不是深入 OCR 引擎。

4

1 回答 1

0

您可能想针对那些长斑点训练 Tesseract。根据 blob 的长度,您将分配不同数量的“X”字符。阅读TrainingTesseract3了解培训过程。

于 2013-09-27T13:13:01.320 回答