我对我一直在网上关注的这个例子有点困惑。在我回答我的问题之前,如果有任何问题,请纠正我!我知道贝叶斯定理是这样的:
P(A│B)= P(B│A) * P(A)
----------
P(B)
在我正在查看的示例中,正在对文本文档进行分类。文本文件都是“恐怖主义”或“娱乐”,所以:
Prior probability for either, i.e. P(A) = 0.5
有六个文档的词频如下:
该示例继续分解这些单词与每个类别相关的频率,应用拉普拉斯估计:
因此,据我了解,这些数字中的每一个都代表 P(B|A),即给定特定类别(恐怖主义或娱乐)该词出现的概率。
现在一个新的文件来了,有这个细分:
该示例通过以下方式计算此新文本文档与恐怖主义有关的概率:
P(Terrorism | W) = P(Terrorism) x P(kill | Terrorism) x P(bomb | Terrorism) x P(kidnap | Terrorism) x P(music | Terrorism) x P(movie | Terrorism) x P(TV | Terrorism)
结果如下:
0.5 x 0.2380 x 0.1904 x 0.3333 x 0.0476 x 0.0952 x 0.0952
同样,到目前为止,我认为我正在关注。P(Terrorism | W) 为 P(A|B),P(Terrorism) = P(A) = 0.5 且 P(B|A) = 上表中“恐怖主义”的所有结果相乘。
但是为了将其应用于这个新文档,该示例计算了上面的每个 P(B|A) 到新频率的幂。于是上面的计算就变成了:
0.5 x 0.2380^2 x 0.1904^1 x 0.3333^2 x 0.0476^0 x 0.0952^0 x 0.0952^1
从那里他们做了一些我得到的总和并找到了答案。我的问题是:
公式中哪里说将新频率作为功率应用于当前 P(B|A)?
这只是我不知道的统计数据吗?这是普遍的还是只是如何做到这一点的特定示例?我之所以问是因为我发现的所有示例都略有不同,使用的关键字和术语略有不同,我发现它有点令人困惑!