我将 lucene 索引 ngram 存储到第 3 级。当我阅读索引并计算术语和 ngram 的评分时,我得到这样的结果
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
所以,如果我们看一下“tom Cruise”的例子,它作为二元组一起出现了 7 次。从这里我们看到“巡航”单独发生了5次。所以我不想要这种重复频率,因为单独的“cruise”比“tom Cruise”得分更高,这是不正确的,因为它包含在里面。
对不起,如果我解释不好我不知道如何称呼这种评分,如果有人知道解释这个技术词,请编辑。
谢谢