algorithm - 朴素贝叶斯分类器，解释模型拟合和预测算法

Question

我有以下两个方程，它们与朴素贝叶斯分类器的模型拟合和预测算法有关。

我试图了解算法 3.2 的第 6 行在做什么。我认为它试图通过使用 log-sum-exp 技巧使数字“更好”，但我仍然不完全理解。有人可以概述为什么/需要这样做吗？特别是对
```
logsumexp(L _i,: )
```
意味着/是/读作？
也有人能给我一个很好的概念，算法 3.1 的第 8 行中的两个值是干什么用的？Lic它们基本上是算法 3.2的初始偏移量/偏差吗？

在此处输入图像描述

来自机器学习概率论准作者 Kevin P. Murphy

score 1 · Accepted Answer

请看下文。如果您想了解所涉及数学的更多详细信息，最好在cross-validated上发布。

有人可以概述为什么需要/需要使用 log-sum-exp 技巧吗？

这是为了数值稳定性。如果您搜索“logsumexp”，您将看到一些有用的解释。例如，https://hips.seas.harvard.edu/blog/2013/01/09/computing-log-sum-exp和log-sum-exp 技巧为什么不递归。本质上，该过程避免了数字太大/太小可能发生的数字错误。

具体来说，论点_Li,:读作

i均值取第 i^行，:均值取该行的所有值。因此，总的来说，L _i,:表示 L 的第 i^行。冒号:在Matlab（及其开源衍生产品 Octave）中用于表示下标向量或矩阵时的“所有索引”。

有人能给我一个很好的概念，算法 3.1 的第 8 行中的两个值是干什么用的？

在此处输入图像描述

这是 C 类在训练示例中出现的频率。

在此处输入图像描述

添加帽子表示该频率将用作对 C 类出现在整个人口中的概率的估计。就朴素贝叶斯而言，我们可以将这些概率视为先验。

同样...

在此处输入图像描述

当您将注意力限制在 C 类时，对第 j^个特征出现的概率的估计。这些是条件概率：P(j|c) = 在给定 c 类的情况下看到特征 j 的概率——朴素贝叶斯中的朴素意味着我们假设它们是独立的。

注意：为了清晰/方便说明，您的问题中的引述已稍作修改。

编辑以回复您的评论

L _i,:是一个向量
N是训练样本的数量
D是数据的维度，即特征的数量（每个特征是矩阵中的一列x，其行是训练样例）。
什么是L _i ，：？每个 L _i,c看起来像以下的对数：c 类的先验乘以所有 P(i|c) 的乘积，即在给定 c 类的情况下看到特征 i 的条件概率的乘积。请注意，向量_Li,:中只有两个条目，每个类别一个（它是二进制分类，所以只有两个类别）。

使用贝叶斯定理，L _i,:的条目可以解释为给定 i 的特征的训练示例 i 在类 c 中的相对条件概率的对数（实际上它们不是相对概率，因为它们每个都需要除以相同的常数，但我们可以放心地忽略它）。

我不确定算法 3.2 的第 6 行。如果您需要做的就是弄清楚您的训练示例属于哪个类，那么对我来说，省略第 6 行似乎就足够了，第 7 行使用argmax_c L _ic。也许作者包括第 6 行是因为_pic有特定的解释？

1 回答 1