1

我有一个包含足球比赛投注的数据集。我正在使用 3 个参数进行异常值检测,即主队获胜的几率、比赛以平局结束的几率以及客队获胜的几率。

每条记录看起来像这样:

 Home   Draw    Away
1.320  5.700  13.500

我已经确定了集群,但很难确定哪个包含噪声,最合理的似乎是最后一个集群(即,如果我有 10 个集群,则集群 10 将是噪声。)

这是使用从我的数据集中获取异常值的正确DBSCAN方法吗,有更好的方法吗?

另外,如果不手动检查,我怎么知道我必须获得最后一个(有噪音的那个)多少簇?

我对统计编程和异常值检测完全陌生,如果我听起来完全无能为力,我深表歉意。

4

1 回答 1

0

请阅读文档。

整数向量编码集群成员,噪声观测(单例)编码为 0

它就在那里,只需在 的手册中搜索“噪音”一词即可dbscan

于 2015-04-24T08:54:19.753 回答