weka - 为什么我的 weka 输出中会出现浮点值？

Question

我在数据集上运行 J48 算法，在输出中我得到如下内容：

J48 pruned tree
------------------

attribute1 = n: class1 (253.41/3.75)
attribute1 = y
|   attribute2 = n: class2 (145.71/4.0)
|   attribute2 = n: class1 (40.68/3.0)

我想知道括号中的内容是什么意思。我在某处读到，由于该选择，第一个值是正确分类的实例，第二个值是多少错误。但这怎么可能是十进制数呢？你如何正确分类 0.41 的东西？

score 1 · Accepted Answer

我在这里找到了答案： http ://weka.wikispaces.com/What+do+those+numbers+mean+in+a+J48+tree%3F

基本上，它将具有缺失值的实例划分为所有树中的小数实例。

score 0 · Accepted Answer

对于示例数据集：https: //www.cs.vassar.edu/~cs366/data/weka_files/vote.arff Vote.arff in Weka

决策树结果：医生费用冻结 = n：民主党 (253.41/3.75)。

第一个数字表示到达该节点的正确事物的数量。（在这个民主党人中），“/”之后的第二个数字显示到达该节点的不正确事物的数量（在这种情况下是共和党人）

实例总数：435 没有的总数（也是正确事物的整数）：253 没有的概率：253/435 = 0.58

缺失数据总数：11 出现“否”的总次数：8 概率：8/11 = 0.72

缺失数据可能为否的总概率：0.58 X 0.72 = 0.42

正确事物总数：253+0.42 = 253.42 ~ 253.41

“/”后面的数字表示到达该节点的不正确事物的数量。现在，如果您看到此数据，它有五个不正确的实例，其中“共和党”是结果，而“医生费用冻结”是“n”（或“？”）

这五个可以拆分如下：带有“n”的错误实例总数：2 带有“？”的错误实例总数：3

类似的公式：

2+(253/435)*3=3.75

weka - 为什么我的 weka 输出中会出现浮点值？

2 回答 2

Related

Reference