0

我以为我有一个简单的问题,但不知何故我找不到答案的来源......哪些文档格式可以被 Railo 4.0 打包的 Lucene 版本索引?

不知何故 .doc 和 .pdf 似乎进展顺利,但 docx 和 rtf 似乎并没有被编入索引……在某处有可用的列表吗?对于不支持的所有格式,让 cfindex 索引该信息的最佳方法是什么?

        <cfindex 
        collection = "#collection#"   
        action = "update"   
        type = "file"
        key ="#ABSfilepath#"
        title="#ABSfilepath#"
        >

谢谢!

问题也发布到 Railo 邮件列表:网络链接

4

1 回答 1

0

Railo 4 使用 Lucene 2.4.1 - 你怎么知道?同样的方法告诉 Railo 使用的所有第三方软件的版本:找到 JAR 文件(在 lib/ext 目录中),打开该存档(使用 7-zip 或等效文件),然后查看 META-INF/MANIFEST。 MF 在哪里可以找到这样的内容:

规范-标题:Lucene 搜索引擎:核心规范-版本:2.4.1 规范-供应商:Apache 软件基金会实施-标题:org.apache.lucene 实施-版本:2.4.1 750176 - 2009-03-04 21:56 :52 实施供应商:Apache 软件基金会

这似乎是一个相当旧的版本,并且看起来它在Apache Lucene 网站上没有任何文档。(可以通过替换相关 JAR 来升级 Lucene,但这也可能导致依赖性问题;风险自负。)

由于 Lucene 网站没有帮助,搜索“lucene 2.4.1 indexable documents”会带回一个关于 v2.3.2 的相关问题,该问题询问:

Lucene java 是否支持解析扩展 *.docx、*.pptx、*.mpp 即 Microsoft Windows 2007 文档?

随着回应:

Lucene 实际上并不支持任何文档类型。发生的情况是某些程序用于将文件解析为可索引的流,并且该流被索引。在过去,这曾经是 POI。

好的,所以假设这仍然是准确的,Lucene 不控制文件类型,Apache POI可以。

检查 JAR 告诉我们 Railo 4.0 使用 Apache POI v3.8,查看POI 更改日志显示 .docx 支持在 v3.5 中到达

因此,您的 .docx 文件应与其他 MS Office 格式一起支持。如果它肯定没有被索引,您可能需要确定它是 POI 问题、Lucene 问题还是 Railo 问题 - 创建一个简单的可重现测试用例,其中包含 .doc 和 .docx 文档可能是一个很好的第一步。

除此之外,您还需要熟悉 Lucene/POI 的人提供建议 - 可能有也可能没有日志文件,其中包含可能的索引/检索错误的详细信息,或者直接与 Lucene 交互的方式(不是通过 Railo/cfindex)可以帮助确定问题所在。

于 2013-09-29T21:39:56.627 回答