machine-learning - 如何获得垃圾邮件的概率而不是分类

Question

我正在构建一个工具来计算文本评论是假的（垃圾邮件）还是真实的概率。

我有一个带注释的评论数据集，标记为垃圾邮件或非垃圾邮件。我已经使用 svm 构建了一个分类器，但这只能让我将输入文档分类为垃圾邮件或非垃圾邮件。然而，我想要一个工具，它会给我一个介于 0 和 1 之间的数字，代表文档是垃圾邮件的概率。有人可以指出我正确的方向。

score 1 · Accepted Answer

如果你想要一个连续值的分数（而不是一个明确的概率），你可以只使用从 SVM 到超平面的距离。这是信心的标准衡量标准，您可以将其视为该点“进入”类的程度。

如果您想将分类实际用作更广泛的概率模型的一部分，在这种情况下您需要具有真正概率解释的东西，您可以使用将 SVM 分数转换为概率的方法之一，但这些方法有些改进并且没有伟大的理论基础。相反，我建议您查看逻辑回归分类器，有时也称为最大熵，以获取稳健的概率替代方案。这具有像 SVM 这样的判别模型的好处，但具有自然和固有的概率基础。

score 0 · Accepted Answer

与其自己编写，不如插入akismet？垃圾邮件检测是贝叶斯算法，您提供的数据越多，它的性能就越好。

score 0 · Accepted Answer

0

您可以使用 SVM 获得概率。看看 libsvm（-b 参数）。

于 2012-11-26T10:20:16.533 回答

machine-learning - 如何获得垃圾邮件的概率而不是分类

3 回答 3

Related

Reference