2

Weka 中的分类器(例如决策树)将如何解释“?” (代表 ARFF 文件中的缺失值)在学习阶段?Weka 会用一些预定义的值(例如“0”或“假”)替换它,还是会以某种方式影响训练过程?

4

1 回答 1

8

除了将缺失值单独视为属性值之外,在 J48 分类器的情况下,对具有缺失值的属性的任何拆分都将使用与观察到的非缺失值的频率成比例的权重来完成。这在 Witten 和 Frank 的教科书Data Mining Practical Machine Learning Tools and Techniques (2005, 2nd. ed., p. 63 and p. 191) 中有记载,他们随后报告说

最终,实例的各个部分都将到达一个叶节点,并且必须使用已经渗透到叶节点的权重重新组合这些叶节点的决策。

有关在决策树中处理缺失值的更多信息,例如 CART 中的代理拆分(与 C4.5 或其后继 J48 相反),可以在分类树的 wiki 部分找到;几篇文章也讨论了插补的使用,例如 处理树中的缺失数据:代理分割或统计插补

于 2011-05-17T09:36:28.403 回答