machine-learning - 如何使用标签概率进行文本分类？

Question

我正在尝试解决学术目的的文本分类问题。我需要将推文分类为“云”、“冷”、“干”、“热”、“潮湿”、“飓风”、“冰”、“雨”、“雪”、“风暴”、“风”和“其他”。训练数据中的每条推文都有针对所有标签的概率。说出信息“已经可以看出这将是一个艰难的得分日。现在和昨天下午一样刮风。” 有 21% 的几率会变热，有 79% 的几率会风。我研究过分类问题，预测它是风还是热或其他。但在这个问题中，每个训练数据都有针对所有标签的概率。我以前使用过 mahout 朴素贝叶斯分类器，它采用给定文本的特定标签来构建模型。如何将各种标签的这些输入概率转换为任何分类器的输入？

score 3 · Accepted Answer

在概率设置中，这些概率反映了关于训练实例的类标签的不确定性。这会影响分类器中的参数学习。

有一种很自然的方法可以合并这一点：例如，在朴素贝叶斯中，当估计模型中的参数时，不是每个单词都对文档所属的类进行计数，而是对概率进行计数。因此，属于一个类的概率高的文档对该类的参数贡献更大。这种情况与使用 EM 学习多项式混合模型时完全相同，其中您拥有的概率与您的实例的成员资格/指标变量相同。

或者，如果您的分类器是具有 softmax 输出的神经网络，而不是目标输出是具有单个 [1] 和许多零的向量，那么目标输出将成为您提供的概率向量。

不幸的是，我不知道任何可以让您合并这些想法的标准实现。

score 2 · Accepted Answer

如果您想要现成的解决方案，您可以使用支持多类分类和实例权重的学习器。假设你有k概率类p_1, ..., p_k。对于每个输入实例，创建k具有相同特征和标签的新训练实例，1, ..., k并分别分配权重p_1, ..., p_k。

Vowpal Wabbit就是这样一种学习器，它支持使用实例权重进行多类分类。

machine-learning - 如何使用标签概率进行文本分类？

2 回答 2

Related

Reference