我有一个关于朴素贝叶斯分类器的理论问题。假设我已经使用以下训练数据训练了分类器:
class word count
-----------------
pos good 1
sun 1
neu tree 1
neg bad 1
sad 1
假设我现在将“好太阳很好”归类。现在有两种选择:
1) 对保持静态的训练数据进行分类。意思是“好”和“太阳”都来自正面类别,将此字符串归类为正面。分类后,训练表保持不变。因此,所有字符串都根据静态训练数据集进行分类。
2) 您对字符串进行分类,然后更新训练数据,如下表所示。因此,下一个字符串将根据一组比这个更“高级”的训练数据进行分类。到(自动)分类结束时,最初作为简单训练集的表格将变得越来越大,已经扩展了许多单词(并更新了字数)
class word count
-----------------
pos good 2
sun 2
great 1
neu tree 1
neg bad 1
sad 1
在我的 NMB 实现中,我使用了第一种方法,但我现在怀疑我应该使用后者。请赐教:-)