Railo 4 使用 Lucene 2.4.1 - 你怎么知道?同样的方法告诉 Railo 使用的所有第三方软件的版本:找到 JAR 文件(在 lib/ext 目录中),打开该存档(使用 7-zip 或等效文件),然后查看 META-INF/MANIFEST。 MF 在哪里可以找到这样的内容:
规范-标题:Lucene 搜索引擎:核心规范-版本:2.4.1 规范-供应商:Apache 软件基金会实施-标题:org.apache.lucene 实施-版本:2.4.1 750176 - 2009-03-04 21:56 :52 实施供应商:Apache 软件基金会
这似乎是一个相当旧的版本,并且看起来它在Apache Lucene 网站上没有任何文档。(可以通过替换相关 JAR 来升级 Lucene,但这也可能导致依赖性问题;风险自负。)
由于 Lucene 网站没有帮助,搜索“lucene 2.4.1 indexable documents”会带回一个关于 v2.3.2 的相关问题,该问题询问:
Lucene java 是否支持解析扩展 *.docx、*.pptx、*.mpp 即 Microsoft Windows 2007 文档?
随着回应:
Lucene 实际上并不支持任何文档类型。发生的情况是某些程序用于将文件解析为可索引的流,并且该流被索引。在过去,这曾经是 POI。
好的,所以假设这仍然是准确的,Lucene 不控制文件类型,Apache POI可以。
检查 JAR 告诉我们 Railo 4.0 使用 Apache POI v3.8,查看POI 更改日志显示 .docx 支持在 v3.5 中到达
因此,您的 .docx 文件应与其他 MS Office 格式一起支持。如果它肯定没有被索引,您可能需要确定它是 POI 问题、Lucene 问题还是 Railo 问题 - 创建一个简单的可重现测试用例,其中包含 .doc 和 .docx 文档可能是一个很好的第一步。
除此之外,您还需要熟悉 Lucene/POI 的人提供建议 - 可能有也可能没有日志文件,其中包含可能的索引/检索错误的详细信息,或者直接与 Lucene 交互的方式(不是通过 Railo/cfindex)可以帮助确定问题所在。