我正在编写将处理超过100Gb文本文档的应用程序。每个文档的大小为 2Kb-100Kb。
起初我应该使用 MySQL 或 Firebird 等 DBMS来存储原始文档,并将索引存储在 lucene 的索引中。这种方法有一些缺点。例如,数据库事务对 lucene 索引一无所知,反之亦然。所以我需要同步它们。
然后我假设 Lucene 可以将整个文档存储在 index 中。所以我需要定期创建索引的备份。但这很容易:我可以使用索引复制整个目录。我使用某种无 SQL 存储(即 Lucene)。而且我可能不会使用 DBMS。
最佳实践是什么:是否将原始文档存储在索引中?我真的不想将 DBMS 用于此目的。可能吗?