0

假设我需要为文本文档建立一个存储。存储应该包含文档(只是文本文件)及其元数据:每个文档的创建日期和几十个标签。要存储的文档数量约为 10^6(每个文档约为 10K)。

主要语言是Java,存储应该部署在Windows.

用户应该能够将文档及其元数据存储在存储中,并按日期范围和标签搜索文档:例如,获取上周带有标签的所有文档:tag1tag2

假设我们将文档存储在文件系统中,并添加一个索引来存储文档名称(路径)、它们的日期和标签。你将如何建立索引?您会为此使用 RDBMS(例如mySQL)吗?您会使用Lucene或其他任何全文搜索引擎吗?

4

1 回答 1

2

为什么不使用JackRabbit,它是一个符合 JSR-170 的 Java 文档存储?

Apache Jackrabbit™ 内容存储库是 Java 技术 API 的内容存储库(JCR,在 JSR 170 和 283 中指定)的完全符合的实现。

内容存储库是一种分层内容存储,支持结构化和非结构化内容、全文搜索、版本控制、事务、观察等。

请注意(关于您的问题)它在幕后使用 Lucene。

于 2013-08-14T13:25:12.560 回答