java - 如何利用以下 ECM 技术 - 比较

Question

我有一个理论问题。我有大量各种格式的文档（ODS、MS office、pdf、html），我想实现 ECM 系统，它不是文档管理系统，而是保存文档元数据和数据的系统（各种语言）以统一的方式 (xhtml) 进入文件系统和数据库（仅元数据）并进行数据处理（索引、搜索）。

您将使用哪些技术以及您将如何进行？这些是我的选择：

仅使用 Apache Tika - 解析这些文档并将元数据和数据提取为 xhtml 格式，然后使用 Lucene 或 Solr 进行索引和全文（最大的缺点是数据库持久性 - 元数据变化很大）

仅将 Apache Solr 与 Tika解析器一起使用——我没有这方面的经验。它是否支持像 Apache Nutch 这样的数据库集成？

然后是 Apache UIMA 项目 - 很难找出幕后发生的事情

使用一些已经在使用 Apache Tika (alfresco, apache jackrabbit) 的 CMS - 但我对它们没有太多经验。无论如何，我确信他们已经解决了 Apache Tika 本身无法解决的问题，例如（doc 与 docx 或不同的元数据类型）。

从 Apache Tika 获得 xhtml 格式后，我还可以使用 eXist db 等原生 XML 数据库，但我不确定这是一个好的选择，因为这些文档的结构相当扁平。XML 数据库用于更分层的文档持久性。

score 0 · Accepted Answer

如果您需要一个“开箱即用”的解决方案，您可以考虑使用像 Camel 这样的集成框架，并建立一个骆驼路由来从文件中提取实体（使用 tika）并通过 jdbc 将它们迁移到您的数据库中。否则，这听起来像是一个典型的数据挖掘任务，从原始源数据开始，到提取的实体结束。

1 回答 1