1

我正在处理一个文本分类问题,并且我在某些功能上存在缺失值的问题。

我正在从标记的训练数据中计算单词的类别概率。

例如;

让单词 foo 属于 A 类 100 次,属于 B 类 200 次。在这种情况下,我发现类概率向量为 [0.33,0.67] ,并将其与单词本身一起提供给分类器。

问题是,在测试集中,有一些词在训练数据中没有出现过,所以它们没有概率向量。

我能为这个问题做些什么?

我尝试为缺失值给出所有单词的平均类概率向量,但它并没有提高准确性。

有没有办法让分类器在评估过程中忽略某些特征,只是针对特定实例而没有给出特征的价值?

问候

4

1 回答 1

1

有很多方法可以实现

  • 为您拥有的所有功能子集创建和训练分类器。您可以使用与主分类器训练相同的数据在子集上训练分类器。

对于每个样本,只需查看它具有的特征并使用更适合他的分类器。不要试图用那些分类器做一些提升。

  • 只需为无法分类的样本创建一个特殊的类。或者你的实验结果太差了,功能太少了。

有时人类也无法成功地对样本进行分类。在许多情况下,无法分类的样本应该被忽略。问题不在于分类器,而在于输入,或者可以通过上下文来解释。

  • 从 nlp 的角度来看,许多单词在许多应用程序中具有非常相似的含义/用法。因此,您可以使用词干/词形还原来创建单词类。

您还可以使用语法更正、同义词、翻译(这个词是否来自世界的另一个地方?)。

  • 如果这个问题对您来说足够重要,那么您将以前面 3 点的组合结束。
于 2013-07-19T18:51:23.520 回答