2

是否有人知道任何产品、库或解决方案商业或开源,甚至可以帮助以下方面的方法;

我正在使用 Nuance 的 Omnipage 进行 OCR 处理。效果很好。但我想根据各种模式找到各种形式的数据。这可能是会计凭证,但关键是即使原始数据的类型是异构的并且存在共同因素,但它们很难以基于规则的方式定义。我发现了一个较早的问题,它部分解决了我的问题(但它假设我有结构化的 PDF,但我没有)

有几个共同因素 * 文档的类型相似 * 在我要查找的内容之前或之上会有关键词,但这些关键词可能有同义词 * 有一些数据,如日期,可能基于不同的格式国家;例如 DD/MM/YYYY、MM/DD/YYYY、YYYY-MM-DD、DD'th MMM、YYYY 等(我假设我们会知道国家) * 金额可以用小数点或小数点逗号书写(我假设我们会知道这个国家)

4

1 回答 1

0

据我了解,您需要为半结构化表单构建数据捕获解决方案:它们都包含基本相同的数据集,但布局可能因文档来源而异。没有灵丹妙药,您需要定义一些规则,如何在文档上找到正确的字段,什么是关键字及其可能的同义词,关键字与数据本身之间的几何关系是什么。

但是,有一种产品可以使这个过程变得更容易,而不是在 C++ 中编程,您需要在专门为此设计的可视化工具中描述这种关系,并且已经内置了很多东西。

ABBYY FlexiCapture

该产品功能强大,简化了文档布局描述、测试和数据提取本身的开发。

它还有一个 SDK 版本:

ABBYY FlexiCapture 引擎

免责声明:我为 ABBYY 工作

于 2012-04-19T13:18:12.933 回答