0

对于合同工作,我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。

问题是这些文件中的大多数都有两列格式:

示例协议 http://sert.homedns.org/img/btp12001.png

我很想阅读您对以下问题的回答:

  1. 在将两列输入 OCR 之前如何拆分它们?
  2. 您推荐哪种商业、开源 OCR 软件或框架,为什么?

请注意,任何工具、编程语言、框架等都可以。不要犹豫,推荐深奥的产品,图书馆,如果你认为它们被剪掉了^__^!!

更新:这些文件已经被议会扫描 o_O:样本(与上图相同),其中有很多,我想尽快交付合同,所以我不能去获取相同文件的打印副本,剪切并亲自扫描它们。他们太多了。

最好的问候,
Cetin Sert

4

4 回答 4

0

看看http://www.wisetrend.com/wisetrend_ocr_cloud.shtml(OCR的在线 REST API)。它基于强大的 ABBYY OCR 引擎。您可以获取一个免费帐户并尝试使用您的一些图像,看看它是否可以处理 2 列格式(它应该能够做到)。此外,您可以使用许多设置(请参阅 API 文档) - 您可能需要调整其中一些设置才能使用 2 列。最后,作为万不得已的解决方案,如果 2 列拆分总是在同一个地方,您可以先创建一个程序,将输入图像拆分为两个图像(使用一些标准图像编写这个应该不是很难处理库),然后将生成的图像提供给 OCR 过程。

于 2010-11-09T00:56:02.127 回答
0

扫描前将页面从中间剪下。

于 2009-07-09T15:12:31.567 回答
0

这取决于您使用的是什么 OCR 软件。几年前,我用 OCR API 做了一些工作,我不太记得名字,但我认为有很多替代方案。无论如何,这个 API 允许我将页面上的区域定义为 OCR,如果你总是大致知道列在哪里,你可以使用 SDK 来映射页面的某些部分。

于 2009-07-09T15:17:15.800 回答
0

我将 Omnipage 17 用于此类事情。它也有一个批处理模式,您可以将文档放在一个文件夹中,它们被抓取,然后将结果放入另一个文件夹中。它自动识别布局,包括列,或者您可以将默认布局设置为列。您可以设置许多选项输出的外观。但是尝试一个演示,如果它是正确的。目前,我的一些文件中存在连字问题。所以像“fliegen”这样的词出现为“fl iegen”,所以你必须拼写它们。

于 2009-07-09T17:27:35.350 回答