我目前正在尝试在 Java 中实现标记引擎,并搜索从文本(文章)中提取关键字/标记的解决方案。我在 stackoverflow 上找到了一些建议使用 Pointwise Mutual Information 的解决方案。
我不能使用 pyton 和 nltk,所以我必须自己实现它。但我不知道如何计算概率。方程如下所示:
PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]
我想知道的是如何计算 P(term, doc)
我已经有一个朗格文本语料库和一系列文章。这些文章不是语料库的一部分。语料库使用 lucene 进行索引。
请帮帮我。此致。