目标是从 pdf 格式的发票中提取数据。
Pdf 数据格式:可选文本(非扫描图像)由文本行、名称-值对、表格(不同长度)组成
发票数据包括:名称-值对中的 invoice_no、invoice_date、order_no、order_date 表格格式 final_taxation_info 和 Gross_total 的项目详细信息(item_code、名称、费率、数量、折扣、价格等)
输入:每周收到大量具有相似和不同格式的发票
输出:提取发票数据并插入数据库
迄今为止尝试或考虑的方法:
- 使用库在 C# 中编写自定义算法,例如 iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF 等。 缺点:必须为新的 pdf 修改或编写新算法格式。
- 数据提取工具,例如 SmallPDF、Convertapi.com、cometdocs.com、groupdocs.app。 缺点:无法控制提取算法。
- 模板引导提取,如 Pdf_Element、Tabula、Docparser、iText pdf2Data。 缺点:当表长度变化时失败。
- 基于AI/ML的提取、自动化工具/服务,例如 AWS Textract、UiPath、KlearStack、IQ Bot(我还没有深入尝试过最后一种方法,只是触及了表面)。 缺点:不确定,但似乎学习曲线或成本可能是绊脚石。
考虑到整个情况,任何人都可以建议我应该遵循哪种方法。