我正在进行一项研究,我想提出一种拒绝对测试数据的某些恒定部分进行分类的方法(例如,20%,五分之一的分类可以被算法回答为“我不确定”)。这个想法是有一个算法可以有效地选择哪些分类最有可能是错误的并拒绝回答它们(以提高整体准确性)。
我想知道是否有任何通用的机器学习方法(独立于使用的分类器)来实现这一点?
任何答案都会有所帮助,谢谢。
我正在进行一项研究,我想提出一种拒绝对测试数据的某些恒定部分进行分类的方法(例如,20%,五分之一的分类可以被算法回答为“我不确定”)。这个想法是有一个算法可以有效地选择哪些分类最有可能是错误的并拒绝回答它们(以提高整体准确性)。
我想知道是否有任何通用的机器学习方法(独立于使用的分类器)来实现这一点?
任何答案都会有所帮助,谢谢。
我知道您可以向神经网络添加一个称为拒绝输出的特殊输出。更多细节在这里。
不过要小心,我认为这样的输出只对大数据集有意义;在小数据集中,您不知道似乎是异常值的给定个体是否不会成为更大数据集中类的一部分。
逻辑回归分类器将输出示例属于正面或负面类别的概率。在这种情况下,设置阈值以将示例标记为“未知”将起作用。例如,任何返回正或负概率 <.6 的东西都可以标记为未知。
正如另一位发帖人所建议的那样,另一种方法是将问题视为排名问题。线性分类器(如 SVM 和逻辑回归)输出示例与分离超平面的距离。您可以使用此距离的绝对值对示例进行排序,然后将 20% 的具有最低等级(最接近分离超平面)的测试示例分类为未知。
只需谷歌搜索“弃权分类器”。
我假设您谈论二进制分类?
此外,当您说“哪些分类最有可能是错误的并拒绝回答它们”时,我假设您的意思是您想要定义一个分类器无法决定的灰色区域。您可以使用两个决策阈值而不是一个:一个高于该阈值确定您的样本为阳性,一个低于该阈值确定您的样本为阴性。介于两者之间的任何东西都是“未知的”。
如果您的意思是“哪些样本可能是错误的”,那么在这种情况下,它听起来更像是排名任务而不是分类任务。