2

一般来说,当目标是构建一个输出实例为正的概率的二元分类器时,哪种机器学习最合适,在哪种情况下?

特别是,具有 Platt 缩放的支持向量机似乎是一个很好的候选者,但我在网上看到有人使用核逻辑回归或高斯过程来完成这项任务。一种方法相对于其他方法是否有任何明显的优势/劣势?

谢谢

4

2 回答 2

1

列出您可以用于此一般任务的所有潜在算法几乎是不可能的。既然您提到了支持向量机 (SVM),我将尝试详细说明这些。

SVM 分类器从不真正输出实际概率。SVM 分类器的输出是测试实例到特征空间中分离超平面的距离(这称为决策值)。默认情况下,根据该决策值的符号选择预测标签。

Platt 缩放基本上在 SVM 决策值之上拟合一个 sigmoid,以将其缩放到 [0, 1] 的范围,然后可以将其解释为概率。类似的技术可以应用于产生实值输出的任何类型的分类器。

SVM 的一些明显优势包括:

  • 计算效率高的非线性分类器(训练实例数中的二次方),
  • 可以处理高维数据,
  • 在无数领域都表现出非常出色的表现。

SVM 的缺点包括:

  • 数据必须矢量化,
  • 模型相对难以解释(与决策树或逻辑回归相比),
  • 处理名义特征可能很笨拙,
  • 缺失值可能很难处理。

当您正在寻找适当的概率输出(包括置信区间)时,您可能需要考虑逻辑回归等统计方法(也存在核化版本,但我建议从基本的东西开始)。

于 2013-05-04T23:58:44.240 回答
0

这里有很多选择——总的来说,没有一个总是比另一个更好。

对于对您的数据做出特定统计或结构假设的方法,最好检查您的数据是否遵循它们。

在不了解您的具体情况的情况下,最好的答案是“全部尝试,看看什么最有效”。

于 2013-05-04T22:24:12.077 回答