0

我正在构建一个工具来计算文本评论是假的(垃圾邮件)还是真实的概率。

我有一个带注释的评论数据集,标记为垃圾邮件或非垃圾邮件。我已经使用 svm 构建了一个分类器,但这只能让我将输入文档分类为垃圾邮件或非垃圾邮件。然而,我想要一个工具,它会给我一个介于 0 和 1 之间的数字,代表文档是垃圾邮件的概率。有人可以指出我正确的方向。

4

3 回答 3

1

如果你想要一个连续值的分数(而不是一个明确的概率),你可以只使用从 SVM 到超平面的距离。这是信心的标准衡量标准,您可以将其视为该点“进入”类的程度。

如果您想将分类实际用作更广泛的概率模型的一部分,在这种情况下您需要具有真正概率解释的东西,您可以使用将 SVM 分数转换为概率的方法之一,但这些方法有些改进并且没有伟大的理论基础。相反,我建议您查看逻辑回归分类器,有时也称为最大熵,以获取稳健的概率替代方案。这具有像 SVM 这样的判别模型的好处,但具有自然和固有的概率基础。

于 2012-11-26T10:43:13.083 回答
0

与其自己编写,不如插入akismet?垃圾邮件检测是贝叶斯算法,您提供的数据越多,它的性能就越好。

于 2012-11-26T05:48:38.453 回答
0

您可以使用 SVM 获得概率。看看 libsvm(-b 参数)。

于 2012-11-26T10:20:16.533 回答