问题标签 [layout-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - 议会辩论 PDF 的光学字符识别
对于合同工作,我需要将来自德国联邦议会的许多旧的、仅扫描图形的全体辩论协议 PDF 数字化。
问题是这些文件中的大多数都有两列格式:
示例协议 http://sert.homedns.org/img/btp12001.png
我很想阅读您对以下问题的回答:
- 在将两列输入 OCR 之前如何拆分它们?
- 您推荐哪种商业、开源 OCR 软件或框架,为什么?
请注意,任何工具、编程语言、框架等都可以。不要犹豫,推荐深奥的产品,图书馆,如果你认为它们被剪掉了^__^!!
更新:这些文件已经被议会扫描 o_O:样本(与上图相同),其中有很多,我想尽快交付合同,所以我不能去获取相同文件的打印副本,剪切并亲自扫描它们。他们太多了。
最好的问候,
Cetin Sert
ocr - OCR 不再是问题了吗?
根据Wikipedia的说法,“拉丁文字、打字文本的准确识别现在被认为是在诸如扫描打印文档等清晰成像的应用中已基本解决的问题。” 但是,它没有给出引用。
我的问题是:这是真的吗?当前的最先进技术是否如此出色以至于 - 对于英文文本的良好扫描 - 没有任何重大改进需要改进?
或者,这个问题的一个不太主观的形式是:现代 OCR 系统在识别英文文本以进行高质量扫描方面的准确度如何?
html - 提取给定区域中的html元素?
给定一个由矩形和 url 定义的区域,有没有办法确定哪些元素位于给定 url 页面上的给定矩形内?
编辑:屏幕分辨率、字体大小等都可以设置为合理的默认值。