machine-learning - 了解用于文本分类的朴素贝叶斯

Question

我熟悉机器学习和朴素贝叶斯，但是在我的特征向量是一袋词的文档分类中，我很难理解如何实现它。

特别是，您如何计算类条件特征似然性Pr(word | class)？在许多文本中，我看到以下术语：

在此处输入图像描述

右手边是如何实现的？是出现c特征f的类文档数除以类文档数c吗？

例如，假设您有 10 个文档，其中 7 个是 C1 类，3 个是 C2 类。其中一些出现了“惊人”这个词：

C1: ...
C1: ... amazing ...
C1: ...
C1: ... amazing ...
C1: ... amazing ...
C1: ...
C1: ...
C2: ...
C2: ... amazing ...
C2: ...

看起来像：

计数（惊人的，C1）= 3
计数（惊人的，C2）= 1
计数（C1）= 7
计数（C2）= 3

Pr(amazing|C1) = 3/7 和 Pr(amazing|C2) = 1/3？

编辑 2015 年 5 月 7 日

我在“ Introduction to Information Retrieval ”一书的第 13 章 ( PDF )中遇到了关于用于文本分类的朴素贝叶斯的讨论。类条件特征概率有一个不同的公式：

在此处输入图像描述

因此，这里看起来 count(word, class) 是类中文档中单词的出现总数，而不是类中文档的数量。

同样，count(class) 是类中文档中的单词总数，而不是类中文档的数量。

P(feature|class) 的哪个公式是首选？

score 3 · Accepted Answer

是的，您的解释和示例是正确的。Count(f_i,c_i) 考虑 f_i 和 c_i 同时发生时的所有此类事件，即具有 f_i 特征的 c_i 类的所有文档（在这种情况下存在单词，但通常它可以存在至少 2 个单词或还要别的吗）。

实际上，引用的方程是最大似然估计，请参阅论文The Naive Bayes Model, Maximum-Likelihood Estimation, and the EM Algorithm以获得完整的描述和证明。

Upd：正如同一章所述（参见第 13.3 节），第一个估计基于伯努利模型，而第二个估计对应于多项式模型。伯努利模型更适用于短文档和“对噪声特征特别敏感”，再次参见书，或论文A comparison of event models for Naive Bayes text classification（也摘自本书，第 13.7 节）

machine-learning - 了解用于文本分类的朴素贝叶斯

1 回答 1

Related

Reference