验证数据的简单方法

翻译自：https://stackoverflow.com/questions/57144482 2019-07-22T10:55:14.693

610 次

我的目标是从几种不同类型的发票中提取信息，并将输入转换为标准输出。目前，所有发票都是 PDF 格式（原始数字 pdf，未打印！），所以我认为我不需要 OCR，但也许在未来，我们也可以支持打印的（所以需要 OCR）。C# 是后端技术。

我一直在研究如何从 PDF 中提取内容的几种方法。到目前为止，我测试过的最好的库是：

pdf2data (IText) (付费)
pdfsharp（免费）
铁pdf（付费）

云服务：

云/图书馆服务：

它们彼此非常不同。

例如，来自亚马逊、谷歌、Azure 的云服务支持以 JSON 格式提供 OCR 结果的 API，其他类似但例如来自 IText 的pdf2data允许您创建模板，具有几个选择器规则来提取结果的特定信息. 这大大方便了您解释结果的方式，并且还有一些可视化工具来提供提取信息的方式/位置。这有助于大量提取工作，因为我不知道如何对 Cloud OCR JSON 结果制定简单的提取规则。

我的问题是是否有任何库（如果可能的话是 C#）抽象提取概念并提供以下功能：

边界搜索
字体类型
字体大小
段落
线
前缀-后缀模式
表（列/行）
键值（表单）
ETC，

从 JSON 结果？这样我就可以使用云服务，例如 Azure，与 IText 具有“相同的提取功能”。否则，从大量类型的发票中提取信息将过于复杂。

ocr - 基于规则/选择器从 OCR JSON 结果中提取/验证数据的简单方法

0 回答 0

Related

Reference