0

我有一个关于朴素贝叶斯分类器的理论问题。假设我已经使用以下训练数据训练了分类器:

class word  count
-----------------
pos   good  1
      sun   1
neu   tree  1
neg   bad   1
      sad   1

假设我现在将“好太阳很好”归类。现在有两种选择:

1) 对保持静态的训练数据进行分类。意思是“好”和“太阳”都来自正面类别,将此字符串归类为正面。分类后,训练表保持不变。因此,所有字符串都根据静态训练数据集进行分类。

2) 您对字符串进行分类,然后更新训练数据,如下表所示。因此,下一个字符串将根据一组比这个更“高级”的训练数据进行分类。到(自动)分类结束时,最初作为简单训练集的表格将变得越来越大,已经扩展了许多单词(并更新了字数)

class word  count
-----------------
pos   good  2
      sun   2
      great 1
neu   tree  1
neg   bad   1
      sad   1

在我的 NMB 实现中,我使用了第一种方法,但我现在怀疑我应该使用后者。请赐教:-)

4

1 回答 1

1

您实现的方法确实是构建分类器(而不仅仅是贝叶斯分类器)的流行且被接受的方式。

使用“未标记”数据(即您没有基本事实的数据)来更新分类器,是一种更先进、更复杂的技术,有时称为“半监督学习”。使用这类算法可能适合也可能不适合您的特定任务——这通常是一个反复试验的问题。

如果您确实决定将未标记的数据合并到您的模型中,您可能应该尝试其中一种流行的算法,例如EM

于 2012-09-10T12:29:52.487 回答