对于合同工作,我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。
问题是这些文件中的大多数都有两列格式:
示例协议 http://sert.homedns.org/img/btp12001.png
我很想阅读您对以下问题的回答:
- 在将两列输入 OCR 之前如何拆分它们?
- 您推荐哪种商业、开源 OCR 软件或框架,为什么?
请注意,任何工具、编程语言、框架等都可以。不要犹豫,推荐深奥的产品,图书馆,如果你认为它们被剪掉了^__^!!
更新:这些文件已经被议会扫描 o_O:样本(与上图相同),其中有很多,我想尽快交付合同,所以我不能去获取相同文件的打印副本,剪切并亲自扫描它们。他们太多了。
最好的问候,
Cetin Sert