unicode - 教授 OCR 以了解 NSA 和 FISC 编辑

Question

我正在维护来自外国情报监视法庭的经过大量编辑的文件的档案。

它们带有大段的文本，如下所示：

已编辑文本的屏幕截图

当 OCR 尝试使用它时，您会收到如下文本：

在 90 天内每天生成此数据。这样做的唯一目的

生产是为了获取外国情报信息以支持

个人授权调查以防止国际恐怖主义和

所以在 OCRed 版本中，有黑点的地方，只是缺少单词。有时，缺少的单词会创建一个语法正确的句子，但具有不同/奇怪的含义（如上）。其他时候，生成的句子没有意义，但无论哪种方式都是一个问题。如果 OCR 引擎可以为这些点返回 X 或像 ▮▮▮▮ 这样的 Unicode 方块，那就更好了。

我想要的结果是这样的：

在 90 天内每天生成此数据。这样做的唯一目的

生产是为了获取外国情报信息以支持XXXXXXXXXXXX

个人授权调查以防止国际恐怖主义和

我的问题是如何获得这些 X。有没有办法分析图像以识别黑点？有没有办法用 X 或更好的 unicode 字符替换它们？我愿意接受任何使这看起来正确的想法，但图像编辑对我来说不是一个强项，也不是深入 OCR 引擎。

score 0 · Accepted Answer

您可能想针对那些长斑点训练 Tesseract。根据 blob 的长度，您将分配不同数量的“X”字符。阅读TrainingTesseract3了解培训过程。

1 回答 1