2

我需要一些帮助来解决这个问题。

我们有大量给定指定域的文档。这些文档来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一个包含一些指定字段的表格,其中一些数字必须从文档的摘录中填写。

例如:

x公司2010年的营业额为$20mio,今年y公司的交易额为$1,000,000。

结果应该是这样的

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000  

您能否指出一些链接或主题,我可以在其中找到如何解决此类问题的更多信息。

我知道没有开箱即用的解决方案,但我应该从哪里开始寻找。

提前致谢。

4

1 回答 1

2

行。有整个计算机科学实验室专门研究这类东西!也许从寻找一个名为RapidMiner的工具开始

这里还有一些我拥有的 PDF 格式的研究论文标题(遗憾的是,我没有链接了):

1. 使用神经网络和语义语法自动理解财务报表

James Markovitch Dun & Bradstreet,搜索技术公司,1995 年 4 月 电子邮件:jsmarkovitch@yahoo.com 版权所有  1995 James Markovitch

2.文档图像中自动语义结构提取的集成方法

Margherita Berardi、Michele Lapi 和 Donato Malerba Dipartimento di Informatica – Università degli Studi di Bari via Orabona 4 - 70126 Bari {berardi,lapi,malerba}@di.uniba.it

我认为第一个对你所追求的最感兴趣。不太确定它会有多少价值:)

于 2010-03-17T11:03:20.617 回答