我有一个包含足球比赛投注的数据集。我正在使用 3 个参数进行异常值检测,即主队获胜的几率、比赛以平局结束的几率以及客队获胜的几率。
每条记录看起来像这样:
Home Draw Away
1.320 5.700 13.500
我已经确定了集群,但很难确定哪个包含噪声,最合理的似乎是最后一个集群(即,如果我有 10 个集群,则集群 10 将是噪声。)
这是使用从我的数据集中获取异常值的正确DBSCAN
方法吗,有更好的方法吗?
另外,如果不手动检查,我怎么知道我必须获得最后一个(有噪音的那个)多少簇?
我对统计编程和异常值检测完全陌生,如果我听起来完全无能为力,我深表歉意。