谢谢阅读 :)
我正在尝试使用 Lucene 在 RTF 文档中搜索“UTTD_Equip_City_TE”之类的词。这个词以两种不同的形式出现:
- «UTTD_Equip_City_TE»,
- «UTTD_Equip_City_TE»
我首先尝试使用 StandardAnalyzer,但它似乎将这个词分解为“UTTD”、“Equip”、“City”和“TE”。
然后我再次尝试使用 WhiteSpaceAnalyzer,但它似乎没有工作......(我不知道为什么)。
你能帮我解决这个问题吗?顺便说一句,编辑 Lucene 源代码并用 Ant 重新编译它不是一种选择:(
谢谢。
编辑:本文档中还有其他文本。例如:
SHIP TO LESSEE (EQUIPMENT location address): «UTTD_Equip_StreetAddress_TE», «UTTD_Equip_City_TE», «UTTD_Equip_State_MC»
基本上,我正在尝试索引 RTF 文件,并且每个 RTF 文件内部都是带有变量的表。变量用«
和包裹»
。我正在尝试在文档中搜索这些变量。我已经尝试过搜索"«" + string + "»"
,但它没有奏效......
这个例子可以提供更好的图片:http: //i.imgur.com/SwlO1.png
请帮忙。