是否有人知道任何产品、库或解决方案商业或开源,甚至可以帮助以下方面的方法;
我正在使用 Nuance 的 Omnipage 进行 OCR 处理。效果很好。但我想根据各种模式找到各种形式的数据。这可能是会计凭证,但关键是即使原始数据的类型是异构的并且存在共同因素,但它们很难以基于规则的方式定义。我发现了一个较早的问题,它部分解决了我的问题(但它假设我有结构化的 PDF,但我没有)
有几个共同因素 * 文档的类型相似 * 在我要查找的内容之前或之上会有关键词,但这些关键词可能有同义词 * 有一些数据,如日期,可能基于不同的格式国家;例如 DD/MM/YYYY、MM/DD/YYYY、YYYY-MM-DD、DD'th MMM、YYYY 等(我假设我们会知道国家) * 金额可以用小数点或小数点逗号书写(我假设我们会知道这个国家)