0

我需要使用 Apache Lucene 和 Commons Digester 构建基于 XML 的查询。

我的文档有这种格式:

<doc>
<id>361492799</id>
<title>Dan1</title>
<description>We had another Flickr meetup in Rochester, the biggest that Ive been to. 12 people showed up.Da, he was to the right.</description>
<time>18934934</time>
<tags>flickrmeetup rochester dan totheright 200701</tags>
<geo><latitude>324234</latitude><longitude>28342349</longitude></geo>
<event>135961</event>
</doc>

而查询实际上也是我需要与整个集合进行比较的文档。每个属性都有不同的相似度度量。例如,“描述”具有 tf-idf 余弦相似度。“时间”只是差异,“纬度”+“经度”使用半正弦距离进行比较。

目前,我只使用简单的文本查询(例如“word1 word2”)执行搜索。我怎样才能建立更复杂的查询呢?

谢谢

4

2 回答 2

0

你看过SOLR吗?SOLR 基本上是 Lucene+一个完整的基于 XML 的查询和索引服务器。

于 2011-02-26T08:04:21.160 回答
0

我需要使用 Apache Lucene 和 Commons Digester 构建基于 XML 的查询。

这篇文章应该可以帮助您入门

要从 xml 分析内容,请查看TIKA

Apache Tika - 内容分析工具包

Apache Tika™ 是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

于 2011-02-26T17:51:28.323 回答