java - lucene unigrams和bigrams的频率

Question

我将 lucene 索引 ngram 存储到第 3 级。当我阅读索引并计算术语和 ngram 的评分时，我得到这样的结果

TERM              FREQUENCY....      TFIDF
minority           25           16.512926
minority report 24           16.179296
report           27           13.559037
cruise           12           11.440491
tom cruise        7            8.737819

所以，如果我们看一下“tom Cruise”的例子，它作为二元组一起出现了 7 次。从这里我们看到“巡航”单独发生了5次。所以我不想要这种重复频率，因为单独的“cruise”比“tom Cruise”得分更高，这是不正确的，因为它包含在里面。

对不起，如果我解释不好我不知道如何称呼这种评分，如果有人知道解释这个技术词，请编辑。

谢谢

score 3 · Accepted Answer

我相信我回答了您不久前提出的类似问题。IIUC，你想让更重要的术语脱颖而出，你觉得“tom Cruise”比“cruise”更重要。

这看起来像是您的数据模型中的一个问题。TFIDF 似乎不符合您的要求。您可以尝试构建语言模型，如Peter Norvig 的“Beautiful Data”一章中所述。

要点是：

计算每个 unigram、bigram 和 trigram 的概率（您将需要平滑或回退，如本文所述）。
通过概率而不是 TFIDF 选择您的术语。

A Language Model Approach to Keyphrase Extraction似乎做了类似的事情。一些替代方案是Kea（它使用 TFIDF 作为几个特征之一）和Peter Turney 的关键词提取工作。

java - lucene unigrams和bigrams的频率

1 回答 1

Related

Reference