2

我有一个理论问题。我有大量各种格式的文档(ODS、MS office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保存文档元数据和数据的系统(各种语言)以统一的方式 (xhtml) 进入文件系统和数据库(仅元数据)并进行数据处理(索引、搜索)。

您将使用哪些技术以及您将如何进行?这些是我的选择:

仅使用 Apache Tika - 解析这些文档并将元数据和数据提取为 xhtml 格式,然后使用 Lucene 或 Solr 进行索引和全文(最大的缺点是数据库持久性 - 元数据变化很大)

仅将 Apache Solr 与 Tika解析器一起使用——我没有这方面的经验。它是否支持像 Apache Nutch 这样的数据库集成?

然后是 Apache UIMA 项目 - 很难找出幕后发生的事情

使用一些已经在使用 Apache Tika (alfresco, apache jackrabbit) 的 CMS - 但我对它们没有太多经验。无论如何,我确信他们已经解决了 Apache Tika 本身无法解决的问题,例如(doc 与 docx 或不同的元数据类型)。

从 Apache Tika 获得 xhtml 格式后,我还可以使用 eXist db 等原生 XML 数据库,但我不确定这是一个好的选择,因为这些文档的结构相当扁平。XML 数据库用于更分层的文档持久性。

4

1 回答 1

0

如果您需要一个“开箱即用”的解决方案,您可以考虑使用像 Camel 这样的集成框架,并建立一个骆驼路由来从文件中提取实体(使用 tika)并通过 jdbc 将它们迁移到您的数据库中。否则,这听起来像是一个典型的数据挖掘任务,从原始源数据开始,到提取的实体结束。

于 2011-05-05T03:18:11.440 回答