0

我希望我提出问题的方式是正确的,尽管我可能会弄错。基本上,我有一个包含术语向量、位置和偏移量的索引,并且我希望能够执行以下操作:当我看到“do”这个词时,检查下一个词是否是“you”。如果是这样,出于评分的目的,将这两个词视为一个短语。我这样做是为了避免将通常一起使用的单词分开。而不是我的按分数排序的单词列表看起来像这样,

do 
want
you
come
to

我想看到更多这样的东西

do you
want
come
to
4

1 回答 1

1

一种解决方法是按单词和短语索引,因此您的评分列表将是:

do you
want
come
to
do
you

如果您随后在索引期间对您的短语应用了提升,您将更接近您的目标。但这取决于匹配的短语是否应始终高于其单个单词的排名。

在构建索引时也可能值得一看Boosting Lucene 术语。

于 2014-08-12T17:11:20.217 回答