2

在使用大约 3000 字的大文档计算两个词之间的 MI 时,当我计算文档中第一个词重复次数不多的概率时,第二个词的概率很低,并且相同;这个低值会影响联合概率 =p(x) * P(y)导致互信息的值为零或 NaN。我怎样才能避免这种情况?

4

1 回答 1

-1

你最好的选择可能是使用负对数概率——这将帮助你避免下溢。记住,p(x) * p(y)是一样的-log(p(x)) + -log(p(y))。有关更多信息,请咨询您友好的社区 Wikipedia

于 2013-04-09T16:44:24.590 回答