php - 实现贝叶斯分类器（在 PHP 中）

Question

我有一个关于朴素贝叶斯分类器的理论问题。假设我已经使用以下训练数据训练了分类器：

class word  count
-----------------
pos   good  1
      sun   1
neu   tree  1
neg   bad   1
      sad   1

假设我现在将“好太阳很好”归类。现在有两种选择：

1) 对保持静态的训练数据进行分类。意思是“好”和“太阳”都来自正面类别，将此字符串归类为正面。分类后，训练表保持不变。因此，所有字符串都根据静态训练数据集进行分类。

2) 您对字符串进行分类，然后更新训练数据，如下表所示。因此，下一个字符串将根据一组比这个更“高级”的训练数据进行分类。到（自动）分类结束时，最初作为简单训练集的表格将变得越来越大，已经扩展了许多单词（并更新了字数）

class word  count
-----------------
pos   good  2
      sun   2
      great 1
neu   tree  1
neg   bad   1
      sad   1

在我的 NMB 实现中，我使用了第一种方法，但我现在怀疑我应该使用后者。请赐教:-)

score 1 · Accepted Answer

您实现的方法确实是构建分类器（而不仅仅是贝叶斯分类器）的流行且被接受的方式。

使用“未标记”数据（即您没有基本事实的数据）来更新分类器，是一种更先进、更复杂的技术，有时称为“半监督学习”。使用这类算法可能适合也可能不适合您的特定任务——这通常是一个反复试验的问题。

如果您确实决定将未标记的数据合并到您的模型中，您可能应该尝试其中一种流行的算法，例如EM。

1 回答 1