我正在构建血细胞图像中的抗体识别器。它基于 libsvm。该原型在识别属于某个训练类的实例时效果很好。但是当我给出任何不包含血细胞的图像时(例如,显微镜的偏移/焦点不好),它仍然暗示了模型已知的类别之一。
我首先考虑实现“未知”类,但我害怕用所有噪声图像训练它会使模型性能变差。
所以我的想法是检查要识别的实例的一个/几个特征是否超出值范围并将其丢弃。
这是一个好方法吗?如果是,应如何选择截止值(例如,根据标准偏差)?
非常感谢!
我正在构建血细胞图像中的抗体识别器。它基于 libsvm。该原型在识别属于某个训练类的实例时效果很好。但是当我给出任何不包含血细胞的图像时(例如,显微镜的偏移/焦点不好),它仍然暗示了模型已知的类别之一。
我首先考虑实现“未知”类,但我害怕用所有噪声图像训练它会使模型性能变差。
所以我的想法是检查要识别的实例的一个/几个特征是否超出值范围并将其丢弃。
这是一个好方法吗?如果是,应如何选择截止值(例如,根据标准偏差)?
非常感谢!
在“可能的非类样本”问题中,最明显的解决方案似乎是通过以下两种方式之一创建一类 SVM(异常值检测算法):
只要有一个明显的阈值,建议的“超出范围检查”的方法就很好——正如你在这里问什么是最好的选择——这意味着它不是一个好方法。如果您不能(作为专家)自己弄清楚它,那么训练异常值检测方法似乎是更好和更安全的选择,就像之前建议的那样,它实际上会做同样的事情,但是以自动方式(因为它会找到规则丢弃“坏数据”而不对任何“坏图像”进行训练)。