2

如何测试未知单词的文本分类问题?在训练模型时,我们可以使用平滑技术(Laplace add-1)来确保任何单词对于每个类都至少得到 1 个计数。

那么,在测试阶段呢?如果训练数据中没有出现某个单词,那么最好的处理方法是什么?简单地跳过它,或者也给它一个 1 的出现?

谢谢,任何建议或意见。具体来说,我使用的是朴素贝叶斯分类器。

4

1 回答 1

3

当你对一个实例进行分类时,想想发生了什么,如果你对一个看不见的特征进行加 1 平滑,那么你只需乘以一个非常小的概率(1 / vocabSize)(或添加一个非常小概率)到您的累积分数。如果您跳过看不见的功能,那么分数不会发生任何变化。

所以,一般来说,你的测试数据中看不见的特征不应该对你的分类决策产生影响——你对它一无所知,因为你在训练中没有看到它,所以在平滑的情况下,你会乘以(或将相同的小(对数)概率添加到每个班级的所有分数,或者您只需忽略所有班级分数。

如果您不相信,只需尝试两者,看看是否有任何不同。

于 2014-10-10T08:06:29.243 回答