我正在使用以下对数似然公式来比较文档和集群之间的相似性: log p(d|c) = sum (c(w,d) * log p(w|c)); c(w,d) 是一个词在文档中出现的频率,p(w|c) 是词 w 由集群 c 生成的可能性。
问题是基于这种相似性,文档经常被分配到错误的集群中。如果我将文档分配给具有最高 log p(d|c) 的集群(因为它通常是负值,我取 –log p(d|c)),那么它将是包含来自 a 的大量单词的集群文档,但这些单词在集群中的概率很低。如果我将文档分配给具有最低日志 p(d|c) 的集群,那么它将是仅在一个单词中与文档有交集的集群。有人可以解释一下如何正确使用对数似然吗?我尝试在java中实现这个功能。我已经看过谷歌学者,但没有找到文本挖掘中对数似然的合适解释。提前致谢