一般来说,当目标是构建一个输出实例为正的概率的二元分类器时,哪种机器学习最合适,在哪种情况下?
特别是,具有 Platt 缩放的支持向量机似乎是一个很好的候选者,但我在网上看到有人使用核逻辑回归或高斯过程来完成这项任务。一种方法相对于其他方法是否有任何明显的优势/劣势?
谢谢
一般来说,当目标是构建一个输出实例为正的概率的二元分类器时,哪种机器学习最合适,在哪种情况下?
特别是,具有 Platt 缩放的支持向量机似乎是一个很好的候选者,但我在网上看到有人使用核逻辑回归或高斯过程来完成这项任务。一种方法相对于其他方法是否有任何明显的优势/劣势?
谢谢
列出您可以用于此一般任务的所有潜在算法几乎是不可能的。既然您提到了支持向量机 (SVM),我将尝试详细说明这些。
SVM 分类器从不真正输出实际概率。SVM 分类器的输出是测试实例到特征空间中分离超平面的距离(这称为决策值)。默认情况下,根据该决策值的符号选择预测标签。
Platt 缩放基本上在 SVM 决策值之上拟合一个 sigmoid,以将其缩放到 [0, 1] 的范围,然后可以将其解释为概率。类似的技术可以应用于产生实值输出的任何类型的分类器。
SVM 的一些明显优势包括:
SVM 的缺点包括:
当您正在寻找适当的概率输出(包括置信区间)时,您可能需要考虑逻辑回归等统计方法(也存在核化版本,但我建议从基本的东西开始)。
这里有很多选择——总的来说,没有一个总是比另一个更好。
对于对您的数据做出特定统计或结构假设的方法,最好检查您的数据是否遵循它们。
在不了解您的具体情况的情况下,最好的答案是“全部尝试,看看什么最有效”。