3

我的任务是从数百个人类可读文档(主要是 MS Word)中提取一些结构化信息,并将其放入数据库中。数据几乎嵌入整个文档的表格中,但表格之间有很多文本,尽管文档在结构上非常相似,但还是有一些差异。文档经常更改(我们每隔几个月就会得到一个更新版本)

到目前为止,我能想到的唯一可行的选择是手动浏览所有文档并插入/更新信息,但我想我会在这里问是否有人认为可以以某种方式刮取文档?

哦,数据必须相当正确......

4

1 回答 1

2

我使用从 RTF 到 FO的转换器做了类似的工作(虽然没有表格)。

您已将文档转换为 RTF,然后再转换为 FO,这为您提供了一个很好的文档 XML 结构。然后,您可以轻松解析它并抓取数据。

于 2010-11-17T09:41:44.193 回答