0

我的数据集是我的规则,我想生成一个决策树,在分类我的规则时至少有 100% 的准确率,但我永远无法达到 100%。我将 minNumObjs 设置为 1 并使其未修剪,但我只得到了 84% 正确分类的实例。

我的属性是:

@attribute users numeric
@attribute bandwidth numeric
@attribute latency numeric
@attribute mode {C,H,DCF,MP,DC,IND}

前数据:

2,200000,0,C
2,200000,1000,C
2,200000,2000,MP
2,200000,5000,C
2,400000,0,C
2,400000,1000,DCF

有人可以帮助我理解为什么我永远无法将 100% 的实例分类,以及如何将它们 100% 分类(同时仍然允许我的属性是数字的)

谢谢

4

1 回答 1

2

由于相同的特征向量具有不同的标签,有时不可能获得 100% 的准确度。在您的情况下,我猜测users,bandwidthlatency是特征,而mode是您要预测的标签。如果是这样,那么 { users, bandwidth, latency} 的相同值可能恰好具有不同的mode标签。

通常,可能通过以下几种方式之一为相同的特征使用不同的标签:

  1. 由于数据读取错误,数据中存在噪声。
  2. 有一个未捕获的随机性来源。
  3. 还有更多可能的特征可以区分不同的标签,但这些特征不在您的数据集中。

您现在可以做的一件事是通过决策树运行您的训练集并找到错误分类的项目。尝试确定它们错误的原因,并查看是否有任何数据实例表现出我上面写的内容(即存在一些具有相同特征但标签不同的数据实例)。

于 2016-04-21T21:14:57.787 回答