我需要使用 Apache Lucene 和 Commons Digester 构建基于 XML 的查询。
我的文档有这种格式:
<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>
而查询实际上也是我需要与整个集合进行比较的文档。每个属性都有不同的相似度度量。例如,“描述”具有 tf-idf 余弦相似度。“时间”只是差异,“纬度”+“经度”使用半正弦距离进行比较。
目前,我只使用简单的文本查询(例如“word1 word2”)执行搜索。我怎样才能建立更复杂的查询呢?
谢谢