我希望我提出问题的方式是正确的,尽管我可能会弄错。基本上,我有一个包含术语向量、位置和偏移量的索引,并且我希望能够执行以下操作:当我看到“do”这个词时,检查下一个词是否是“you”。如果是这样,出于评分的目的,将这两个词视为一个短语。我这样做是为了避免将通常一起使用的单词分开。而不是我的按分数排序的单词列表看起来像这样,
do
want
you
come
to
我想看到更多这样的东西
do you
want
come
to
我希望我提出问题的方式是正确的,尽管我可能会弄错。基本上,我有一个包含术语向量、位置和偏移量的索引,并且我希望能够执行以下操作:当我看到“do”这个词时,检查下一个词是否是“you”。如果是这样,出于评分的目的,将这两个词视为一个短语。我这样做是为了避免将通常一起使用的单词分开。而不是我的按分数排序的单词列表看起来像这样,
do
want
you
come
to
我想看到更多这样的东西
do you
want
come
to
一种解决方法是按单词和短语索引,因此您的评分列表将是:
do you
want
come
to
do
you
如果您随后在索引期间对您的短语应用了提升,您将更接近您的目标。但这取决于匹配的短语是否应始终高于其单个单词的排名。
在构建索引时也可能值得一看Boosting Lucene 术语。