0

我正在尝试解决学术目的的文本分类问题。我需要将推文分类为“云”、“冷”、“干”、“热”、“潮湿”、“飓风”、“冰”、“雨”、“雪”、“风暴”、“风”和“其他”。训练数据中的每条推文都有针对所有标签的概率。说出信息“已经可以看出这将是一个艰难的得分日。现在和昨天下午一样刮风。” 有 21% 的几率会变热,有 79% 的几率会风。我研究过分类问题,预测它是风还是热或其他。但在这个问题中,每个训练数据都有针对所有标签的概率。我以前使用过 mahout 朴素贝叶斯分类器,它采用给定文本的特定标签来构建模型。如何将各种标签的这些输入概率转换为任何分类器的输入?

4

2 回答 2

3

在概率设置中,这些概率反映了关于训练实例的类标签的不确定性。这会影响分类器中的参数学习。

有一种很自然的方法可以合并这一点:例如,在朴素贝叶斯中,当估计模型中的参数时,不是每个单词都对文档所属的类进行计数,而是对概率进行计数。因此,属于一个类的概率高的文档对该类的参数贡献更大。这种情况与使用 EM 学习多项式混合模型时完全相同,其中您拥有的概率与您的实例的成员资格/指标变量相同。

或者,如果您的分类器是具有 softmax 输出的神经网络,而不是目标输出是具有单个 [1] 和许多零的向量,那么目标输出将成为您提供的概率向量。

不幸的是,我不知道任何可以让您合并这些想法的标准实现。

于 2013-10-07T12:18:45.627 回答
2

如果您想要现成的解决方案,您可以使用支持多类分类和实例权重的学习器。假设你有k概率类p_1, ..., p_k。对于每个输入实例,创建k具有相同特征和标签的新训练实例,1, ..., k并分别分配权重p_1, ..., p_k

Vowpal Wabbit就是这样一种学习器,它支持使用实例权重进行多类分类。

于 2013-10-07T22:06:30.763 回答