machine-learning - 当一个/几个特征值超出范围时，可以丢弃实例吗？

Question

我正在构建血细胞图像中的抗体识别器。它基于 libsvm。该原型在识别属于某个训练类的实例时效果很好。但是当我给出任何不包含血细胞的图像时（例如，显微镜的偏移/焦点不好），它仍然暗示了模型已知的类别之一。

我首先考虑实现“未知”类，但我害怕用所有噪声图像训练它会使模型性能变差。

所以我的想法是检查要识别的实例的一个/几个特征是否超出值范围并将其丢弃。

这是一个好方法吗？如果是，应如何选择截止值（例如，根据标准偏差）？

非常感谢！

score 1 · Accepted Answer

在“可能的非类样本”问题中，最明显的解决方案似乎是通过以下两种方式之一创建一类 SVM（异常值检测算法）：

训练两个一类 SVM（每类一个）并丢弃被两个模型标记为“异常值”的样本
在整个数据集（两个类的实例）上训练一个一类 SVM，并丢弃标记为异常值的数据

只要有一个明显的阈值，建议的“超出范围检查”的方法就很好——正如你在这里问什么是最好的选择——这意味着它不是一个好方法。如果您不能（作为专家）自己弄清楚它，那么训练异常值检测方法似乎是更好和更安全的选择，就像之前建议的那样，它实际上会做同样的事情，但是以自动方式（因为它会找到规则丢弃“坏数据”而不对任何“坏图像”进行训练）。

machine-learning - 当一个/几个特征值超出范围时，可以丢弃实例吗？

1 回答 1

Related

Reference