我正在处理一个文本分类问题,并且我在某些功能上存在缺失值的问题。
我正在从标记的训练数据中计算单词的类别概率。
例如;
让单词 foo 属于 A 类 100 次,属于 B 类 200 次。在这种情况下,我发现类概率向量为 [0.33,0.67] ,并将其与单词本身一起提供给分类器。
问题是,在测试集中,有一些词在训练数据中没有出现过,所以它们没有概率向量。
我能为这个问题做些什么?
我尝试为缺失值给出所有单词的平均类概率向量,但它并没有提高准确性。
有没有办法让分类器在评估过程中忽略某些特征,只是针对特定实例而没有给出特征的价值?
问候