pdf - 从不同格式的 pdf 发票中提取数据

Question

目标是从 pdf 格式的发票中提取数据。

Pdf 数据格式：可选文本（非扫描图像）由文本行、名称-值对、表格（不同长度）组成

发票数据包括：名称-值对中的 invoice_no、invoice_date、order_no、order_date 表格格式 final_taxation_info 和 Gross_total 的项目详细信息（item_code、名称、费率、数量、折扣、价格等）

输入：每周收到大量具有相似和不同格式的发票

输出：提取发票数据并插入数据库

迄今为止尝试或考虑的方法：

使用库在 C# 中编写自定义算法，例如 iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF 等。 缺点：必须为新的 pdf 修改或编写新算法格式。
数据提取工具，例如 SmallPDF、Convertapi.com、cometdocs.com、groupdocs.app。 缺点：无法控制提取算法。
模板引导提取，如 Pdf_Element、Tabula、Docparser、iText pdf2Data。 缺点：当表长度变化时失败。
基于AI/ML的提取、自动化工具/服务，例如 AWS Textract、UiPath、KlearStack、IQ Bot（我还没有深入尝试过最后一种方法，只是触及了表面）。 缺点：不确定，但似乎学习曲线或成本可能是绊脚石。

考虑到整个情况，任何人都可以建议我应该遵循哪种方法。

score 0 · Accepted Answer

我们使用了方法 1，在我们的组织中，您必须想出 pdf->free text-> 公式化的表达式来提取。人工智能工具只有在你有大量可以“训练”人工智能的文档时才能工作。

http://www.puntechsolutions.com.au/smartdt.html

1 回答 1