0

您能否帮助我理解它,因为我不确定我是否正确理解它。

假设我有一个人的数据集,有 100 个特征,各种特征,如身高、体重、年龄等。我想分类是正常还是异常。我所说的异常是指如果一个 20 岁的男人身高 170 厘米和 150 公斤,则将其识别为异常。

我应该使用自组织图来降低维度(这 100 个特征),然后使用 K-means 将它们分为正常和异常吗?这是一个正确的方法吗?或者我可以只使用 K-NN 将它们分类为正常 - 异常而无需任何降维?

K-NN 可以使用多少功能?到目前为止,我发现的所有示例都只使用了两个。

如果以后我想知道为什么这个人被列入了异常类,我怎么会发现这是因为这两个特征,他的体重根据他的身高?

4

1 回答 1

1

如果您没有每个样本的标签 - 这是无监督学习任务,可能是异常值检测/异常检测。

我认为在您的情况下,您只需将多元高斯分布拟合到您的数据集,并假设如果 p(x)(其中 p 拟合正态分布)小于某个阈值,则新样本不正常。也看这里:http ://scikit-learn.org/stable/modules/outlier_detection.html#outlier-detection

于 2016-01-10T16:02:17.460 回答