0

我对 Apache Lucene 库有一些疑问:

1) 如何将两个 TokenStream 对象连接成一个 TokenStream 对象?

2) 哪个过滤器可用于从 TokenStream 对象中删除所有重复的令牌(具有相同的值)?

提前致谢

4

1 回答 1

0

至于从两个来源连接,只需将两个Field具有相同名称的实例添加到Document. 这保证与连接值的单个字段相同。

至于消除重复的术语,这并不是真正必要的。Lucene 只会计算文档的词频以便给它们打更高的分数。如果您不需要,您可以定义自己的Similarity实例,该实例实现tf为常量 1。

或者,如果您只需要禁用每个字段的词频,您可以实例化Fieldwith Field.TermVector.NO

于 2012-08-24T08:48:27.873 回答