是否可以在 lucene 中索引压缩文件夹。如果我解压缩它,内容太大。如果我只是索引一堆包含文本文件的压缩文件夹,则 serach 无法正常工作。lucene 是否可以在不提取 zip 文件的情况下进行索引。
问问题
1666 次
1 回答
1
Lucene 只是一个搜索库,它不可能“知道”所有可能的场景——例如如何索引 XML 文档、word 文件、.zip 中的文件、切尔诺贝利核电站创建的文件等。
但是 Lucene的作用是提供 API让您将数据挂接到 Lucene。
如果无法解压缩存档文件的内容,您可以编写一个类来读取 zip 文件(但不会将其解压缩到磁盘上)并将此数据提供给 Lucene。
如果您主要关心的是索引的大小,那么您无法做任何事情来减少它。不过有一些提示:
- 尝试不使用停用词进行索引
- 不存储字段,只索引它们(提示:Field.Store.NO)
- 总是小写所有术语以减少术语计数
于 2013-02-15T11:09:21.493 回答