我正在将我的代码从 Lucene 3.5 迁移到 Lucene 4.1,但是在没有索引的情况下获取术语向量时遇到了一些问题。
问题是,给定一个文本字符串和一个Analyzer
,我需要计算术语向量(从技术上讲,找到术语及其频率 tf)。显然,它可以通过编写索引(使用IndexWriter
)然后读回(使用IndexReader
)来实现,但我认为这会很昂贵。此外,我不需要文档频率(df)。因此,我认为无索引的解决方案是合适的。
在 Lucene 2 和 3 中,用于上述目的的一种简单技术是使用QueryTermVector
which extendsTermFreqVector
并具有一个构造函数,该构造函数带有一个字符串和一个 Analyzer。不幸的是,QueryTermVector
(连同TermFreqVector
)已在 Lucene 4 中被删除,而且迁移文档似乎没有提到任何关于QueryTermVector
.
您在 Lucene 4 中有解决此问题的方法吗?非常感谢。