1

我的目标是从几种不同类型的发票中提取信息,并将输入转换为标准输出。目前,所有发票都是 PDF 格式(原始数字 pdf,未打印!),所以我认为我不需要 OCR,但也许在未来,我们也可以支持打印的(所以需要 OCR)。C# 是后端技术。

我一直在研究如何从 PDF 中提取内容的几种方法。到目前为止,我测试过的最好的库是:

云服务:

云/图书馆服务:

它们彼此非常不同。

例如,来自亚马逊、谷歌、Azure 的云服务支持以 JSON 格式提供 OCR 结果的 API,其他类似但例如来自 IText 的pdf2data允许您创建模板,具有几个选择器规则来提取结果的特定信息. 这大大方便了您解释结果的方式,并且还有一些可视化工具来提供提取信息的方式/位置。这有助于大量提取工作,因为我不知道如何对 Cloud OCR JSON 结果制定简单的提取规则。

我的问题是是否有任何库(如果可能的话是 C#)抽象提取概念并提供以下功能:

  • 边界搜索
  • 字体类型
  • 字体大小
  • 段落
  • 线
  • 前缀-后缀模式
  • 表(列/行)
  • 键值(表单)
  • ETC,

从 JSON 结果?这样我就可以使用云服务,例如 Azure,与 IText 具有“相同的提取功能”。否则,从大量类型的发票中提取信息将过于复杂。

4

0 回答 0