pdf - 议会辩论 PDF 的光学字符识别

Question

对于合同工作，我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。

问题是这些文件中的大多数都有两列格式：

示例协议 http://sert.homedns.org/img/btp12001.png

我很想阅读您对以下问题的回答：

在将两列输入 OCR 之前如何拆分它们？
您推荐哪种商业、开源 OCR 软件或框架，为什么？

请注意，任何工具、编程语言、框架等都可以。不要犹豫，推荐深奥的产品，图书馆，如果你认为它们被剪掉了^__^！！

更新：这些文件已经被议会扫描 o_O:样本（与上图相同），其中有很多，我想尽快交付合同，所以我不能去获取相同文件的打印副本，剪切并亲自扫描它们。他们太多了。

最好的问候，
Cetin Sert

score 0 · Accepted Answer

看看http://www.wisetrend.com/wisetrend_ocr_cloud.shtml（OCR的在线 REST API）。它基于强大的 ABBYY OCR 引擎。您可以获取一个免费帐户并尝试使用您的一些图像，看看它是否可以处理 2 列格式（它应该能够做到）。此外，您可以使用许多设置（请参阅 API 文档） - 您可能需要调整其中一些设置才能使用 2 列。最后，作为万不得已的解决方案，如果 2 列拆分总是在同一个地方，您可以先创建一个程序，将输入图像拆分为两个图像（使用一些标准图像编写这个应该不是很难处理库），然后将生成的图像提供给 OCR 过程。

score 0 · Accepted Answer

0

扫描前将页面从中间剪下。

于 2009-07-09T15:12:31.567 回答

score 0 · Accepted Answer

这取决于您使用的是什么 OCR 软件。几年前，我用 OCR API 做了一些工作，我不太记得名字，但我认为有很多替代方案。无论如何，这个 API 允许我将页面上的区域定义为 OCR，如果你总是大致知道列在哪里，你可以使用 SDK 来映射页面的某些部分。

score 0 · Accepted Answer

我将 Omnipage 17 用于此类事情。它也有一个批处理模式，您可以将文档放在一个文件夹中，它们被抓取，然后将结果放入另一个文件夹中。它自动识别布局，包括列，或者您可以将默认布局设置为列。您可以设置许多选项输出的外观。但是尝试一个演示，如果它是正确的。目前，我的一些文件中存在连字问题。所以像“fliegen”这样的词出现为“fl iegen”，所以你必须拼写它们。

pdf - 议会辩论 PDF 的光学字符识别

4 回答 4

Related

Reference