我正在寻找检测文档文本的技术。
例如,在普通的 .txt 文件上很容易:有许多用于图像处理的库、API 和 SDK,并且通常它们具有实现 OCR 算法的方法。
但是讨论“复杂”的印刷文件(文件的结构是众所周知的和确定性的),例如养老金计划年度报告的摘要页面:我只想提取“底线”数字。我知道顶部中心有标题,中间有一些表格,左下角有一些段落,右下角有我正在寻找的段落。
从文档中提取文本的方法是什么?这里的主要任务是分析文档结构与预定义结构的技术,当我们知道我们现在正在处理某些特定段落时 - 从这里开始很容易 - 应用上面提到的 OCR API 标准并收集您的数据自定义数据结构。
例如链接文档(第 1 页):每次我应用纯 OCR API 时,我都确切知道我在预定义模板的哪个部分工作的方法是什么?文档模板有:
顶部分为 3 个水平部分。
中间部分:标题,然后是第一个表,另一个标题,然后是另一个表。
底部:右上角的一些文字。
谢谢,